JMC | 药物发现和合成机器学习联盟综述人工智能在药物合成中应用

JMC | 药物发现和合成机器学习联盟综述人工智能在药物合成中应用

引言

人工智能和机器学习早已经证明了它们在小分子预测化学和合成规划方面的潜在作用。麻省理工学院和13家化学及制药公司成员组成的药物发现和合成机器学习联盟(MLPDS),正在开发和评估一个数据驱动的合成规划项目。他们共同撰写了这篇文章,分享了他们认为的预测模型是如何整合到药物化学合成工作流程中的,MLPDS成员公司目前如何使用它们,以及该领域的前景。

JMC | 药物发现和合成机器学习联盟综述人工智能在药物合成中应用

药物发现和合成机器学习联盟(MLPDS)

图片来源:https://mlpds.mit.edu/

计算机辅助合成计划

在哪里可以帮助药物化学发现?

目前,将一种药物推向市场的成本估计超过了23亿美元。高额的成本可能归因于两个因素:1.经过临床试验的候选分子实验过程上的高损耗率(损耗率超过85%);2.前期发现阶段的复杂性,需要在时间和资源上进行相当大的投资。计算机硬件和经电脑模拟方法的进步,加快和改善了药物化学中典型的设计-制造-测试-分析(DMTA)药物发现周期的各个方面(图1)。其中一个越来越受关注的领域是,在制造阶段使用数据驱动的合成预测工具,它可以加速合成过程和减少合成新分子实体的失败。

JMC | 药物发现和合成机器学习联盟综述人工智能在药物合成中应用

图1 在设计-制造-测试-分析药物发现周期中,信息学和AI技术的一些机会

机器学习和基于规则的方法在规划合成路线方面都已证明是成功可行的,这些路线也已在实验室中执行,或被化学家评估是值得尝试的。例如,辛西亚已被用于寻找与药物有关化合物的路线,与专家开发的路线相比,它甚至提高了总产量。虽然该领域仍处于使用计算机辅助合成规划(Computer aided synthesis planning,CASP)进行完全自动化合成规划的早期阶段,但这些初步成功证明了这些工具在DMTA周期中的效用。

从2018年5月开始,麻省理工学院的一组研究人员与13家制药和化学公司在药物发现和合成的机器学习(MLPDS)联盟中,进行了密切合作。该联盟众多的目标之一是开发基于机器学习的算法和工具,以加速DMTA周期的制造阶段(图1)。

本文将从以下几个地方对人工智能在药物化学合成中的许多作用进行描述:

(1)可以集成到药物化学工作流程中;

(2)已经整合到某些制药公司中去了;

(3)需要进一步发展才能完成更艰巨的任务。研究者着重于计算机辅助合成规划中的三个主要任务(CASP)(如图2):逆合成计划,条件建议以及正向反应预测。

JMC | 药物发现和合成机器学习联盟综述人工智能在药物合成中应用

图2 计算机辅助合成规划的三个主要任务

利用基于ML的CASP进行逆向合成规划。 逆向合成软件通过生成假想的合成路线来缓解人工合成评估的瓶颈,这种假想的合成路线可以通过简化合成来快速对化合物进行优先排序,从而为化学家提供了一组更集中的化合物作为专家路线规划的起点。

按照合成能力对化合物的评分方法有两种:简化的基于结构的启发式方法和全逆合成树扩展。启发式的目标是从分子结构中捕捉SA的广泛趋势,传统上一直使用专家定义的分子属性函数。非线性回归(例如,使用机器学习技术)可以代替概括由专家化学家分配的主观分数,或用于半监督设置,以学习化学反应的例子。然而,在现实中,合成靶标的能力高度依赖于可购买的特定构建块的可用性,而不是分子结构的平滑功能。由于构建块的可用性取决于环境(例如,组织、预算、发现和过程开发),一个更通用的评估合成能力的方法是使用可购买化合物的定制数据库的逆向合成扩展,该数据库是为应用程序定制的。明确的逆合成合成扩展的好处是认识到获取感兴趣的目标的转化确实存在,而且合适的起始材料是可用的;然而,它需要更高的计算成本。然而,有了逆向合成的规划工具以及足够的时间和训练,神经网络模型可以开始近似这个高度非线性的函数。

逆向合成规划软件主要有两大类:即使用专家编码的规则或启发式来生成推荐的软件和那些学习(或推断)如何生成推荐的软件。从反应数据集中提取模板的一般步骤是:(1)识别反应中心或变化原子;(2)识别靠近反应中心的原子;(3)添加参与反应的广义官能团。这种方法捕获了局部的反应环境,但是,在大多数算法的实现中,并没有捕获有助于反应的分子的全局特征。专家编码的方法可以更好地描述功能性基团的需求,但不能针对单个组织的能力进行剪裁。

反应条件的推荐和评价。规划一条逆合成路线只是整个CASP系统的一个方面,要想成为实验室的可行建议,必须提出一套能够实现所期望的转化的反应条件。原则上,条件推荐的机器学习模型如果对历史条件数据进行适当的训练,可以更客观地推断出合适的条件。

在实践中,由于缺乏高质量的数据,这类模型很难开发。阻碍发展的主要数据问题是对(1)数量、体积或浓度;(2)反应时间或动力学;(3)试剂和催化剂的添加顺序等的揭示不足。条件推荐模型可能会被开发以适应特定化学领域的需要,例如药物化学或过程化学。在许多情况下,反应的目的是不同的,例如产量和副产物形成的重要性。在设计新的条件组合或新的催化剂或试剂时,可能需要更具体的预测来为单个反应找到最佳条件。

尽管很难避免反应条件的经验优化,特别是对于复杂的底物或串联催化,但人工智能技术有望在加速这一过程中崭露头角。反应优化是一个成熟的领域,存在许多统计技术来选择实验条件来迭代地提高性能(例如,在收率、周转率或吞吐量方面)。从机器学习的角度来看,以上是主动学习的框架。最流行的方法是基于模型的技术,即建立反应性能的替代模型作为反应条件的函数。各种搜索策略(如贝叶斯优化)可以在这些模型之上分层,以帮助选择下一组条件来尝试和完善模型。

正向反应的预测。CASP的第三个关键任务是确保通过算法合成设计得到的建议是稳健的,并且可以通过预测反应产物(至少在质量上)来实施。反应预测的机器学习方法包括尝试从预定义的规则或模板列表中推断反应规则,图形卷积神经网络用于预测从原料到产品的原子和键的变化以及预测产品SMILES的序列-序列模型。鉴于原则上只有一个正确答案,与反合成模型的评价相比,正向合成模型更容易进行定量评价。然而,在实践中,缺乏精确的浓度、时间和温度数据使反应预测成为不确定的问题。

这些正向反应预测器也可用于副产物的预测。对最有可能产物的了解,有助于识别可能产生潜在有害或难以分离的中间产物的反应。许多反应可以产生多个区域或立体异构化合物。一旦这些模型能够做出定量的预测,它们对于净化策略的考虑和设计是必不可少的。

CASP目前在制药和化学工业中

是如何使用的?

多步路线规划。众多可用的商业和学术合成路线规划软件,都提供了一个独立的图形用户界面(GUI)或基于web的界面,用户可以在其中与建议的路线和预测进行交互。该软件的目标用户范围,包括从没有太多化学反应知识的非化学家,到想要简化合成工作流程且训练有素的化学专家。在Janssen,许多化学家同时使用合成规划工具和传统的数据库查找已知反应,以更快地启发创意。大多数公司通过小规模的试验来选择化学专家,这些化学家在评估机器学习CASP工具的能力和确定关键限制方面处于最强有力的位置。公司的beta测试者和逆向合成算法开发者之间的密切联系是必要的,因为真正的性能评估必须由能够验证模型建议且训练有素的专家进行。一般来说,如果目标分子与Reaxys或USPTO中发现的产品分子在化学空间上相似,则使用ASKCOS工具套件往往表现良好。这些目标分子可以使用成熟的化学和模型可以在其适用范围内充分发挥作用。

JMC | 药物发现和合成机器学习联盟综述人工智能在药物合成中应用

图3 用ASKCOS对branebrutinib进行逆合成分析

基于机器学习的路径规划工具的成功体现在许多不同的方面。这些项目能否找到途径的一个最简单的因素是被认为是商业可用的化合物数据库的覆盖率。为了更好地理解可购买化学品数据库是如何影响树搜索的结果,葛兰素史克比较了ASKCOS可购买的化学品库存数据库(138k)和更大的数据库(800M)。在一个包含69个目标分子的内部集合中,使用最自由的路径规划设置,ASKCOS分别通过库存数据库和内部数据库为54%的化合物和67%的化合物找到了一条路径。这些结果突出了路径规划算法对用于停止搜索准则数据库的依赖性。然而,对可购买数据库的依赖使CASP工具的比较变得复杂,因为每个软件包使用不同的(通常是未公开的)可购买数据库。通过在每个CASP工具中加载和使用定制构建块集的简单实用程序的实现,这个问题可能会得到缓解。

JMC | 药物发现和合成机器学习联盟综述人工智能在药物合成中应用

图4 化合物A的甲基化类似物的逆合成分析

预测化学的机器学习方法的一个预期特征是,对专有数据的再培训模型应该能让公司对内部使用的化学物质实现更好的预测能力。来自阿斯利康和伯尔尼大学的研究人员应用了一个工作流来提取逆向合成模板,并对几个公共和专有数据集进行培训/应用,并比较了不同模型的性能。他们发现Reaxys拥有最独特的反应模板,其中2%的数据在研究中使用的所有数据集之间共享,只有0.6%的数据在Reaxys和他们专有的ELN数据子集之间共享。礼来公司从已批准的、实验性和研究性药物中确定了6k的目标化合物子集,代表了公司感兴趣的化学空间。利用礼来构建块数据库和内部合成规划平台ChemoPrint,可使用以下模板集进行逆向合成扩展:1)仅使用礼来eLN数据(13297个模板)和2)礼来eLN数据加上专利数据(13297 + 50275个模板)。第一个模板集能找到40.1%的6k化合物的路线。在模板集中添加额外的专利模板,仅增加了5.8%的成功配置路径的能力,对应的成功率为46.9%。对于全路径规划,这些结果表明需要进一步测试内部和专有数据集,以及公司数据可能对多步路径规划的影响。

JMC | 药物发现和合成机器学习联盟综述人工智能在药物合成中应用

图5 ASKCOS交互式路径规划的屏幕截图

正向反应的预测。基于机器学习的正向预测的目的是验证由全路径规划提供的路径。在实现中,正向预测不是通过GUI在树搜索过程中自动进行的,而是可以对扩展后的反应进行正向预测。在实践中,正向反应预测工具目前主要用于识别潜在的副产物和杂质,而不是确定路线。与逆向合成计划类似,公司数据的使用应通过调整用于培训和预期预测的化学品/反应类型来提高内部使用预测的质量。辉瑞公司和剑桥大学最近的一项研究表明,根据恰当数据再训练一个序列-序列的正向预测模型确实能提高公司特定化学的准确性。

条件推荐。在成员公司部署的所有MLPDS模块中,条件推荐的使用频率最低,收到的反馈也最少。条件推荐的一般模型,如在ASKCOS中包含的模型,可以为反应执行提供一个良好的起点,将是药物化学工作流程的首选。然而,由于训练集领域的适用性,这些广义模型存在一定的局限性。化学家目前可以使用ASKCOS为计划反应提供一个良好的起点,但许多原因可能导致条件推荐的采纳率较低。一是模型推荐不够具体(浓度、时间、添加的顺序等等都没有),无法给出可执行的条件。该模型提供的条件可以通过文献检索类似的转变,这仍然是实验化学家的首选机制。从长远来看,有可能一旦做出定量推荐,就有可能影响自动化实验,但目前,条件推荐的效用有限。通过对诺华的 LSZ102(化合物12)及其衍生物在SAR发现阶段的反应进行回顾性分析发现,ASKCOS路径规划确定了LSZ102通过两类钯催化的C-C耦合的路径,如图6所示。而这两种耦合策略在面向LSZ102的SAR发现阶段被广泛使用。

JMC | 药物发现和合成机器学习联盟综述人工智能在药物合成中应用

图6 LSZ102的单步逆合成预测

进一步的回顾性分析表明,在提出的前3种条件下,最顶级的断开(Pd-催化C-H活化)都需要高温和极性非质子溶剂(DMF/DMA)。优化条件适用于多样且产率位于39 -97%的基质原料。由ASKCOS提出的初始温度和溶剂条件与实际使用的温度和溶剂条件相差不远,可为侦查或筛选工作提供一个良好的起点。

可合并到公司平台中的编程接口。虽然图形用户界面是化学家使用的主要方法,但计算工具可以直接与其他计算管道集成。与内部分子设计工具的紧密集成代表了CASP的附加值,并可能得到更多的采用。礼来公司设计了一个名为Kernel的内部工作流程,在这个流程中,来自化学家的目标化合物或筛选目标被提交,并以自动化的方式进行优先排序。一旦Kernel确定了优先化合物,就利用ChemoPrint的API和礼来构建块集合对所有分子执行完全的逆向合成路径规划,然后将其添加到化合物清单中,并通过电子邮件通知团队成员结果。BASF开发了一个集成平台,将文献参考资料和内部电子实验室笔记与合成反应模板建议连接起来,并将内部复合库存数据库集成到递归路径规划中,以优化内部资源的使用。用于合成途径的分子与一套内部工具相连接,用于预测物理和毒理学性质,使在进行实验室工作之前能够对反应的可行性和安全性经由电脑模拟评估。

自动化的合成平台。合成规划是全自动反应平台的重要组成部分。目前,对于自动化合成平台的研究已经局限在一个相对较小的实验组,并且在学术界和工业界很大程度上仍停留在概念验证阶段。ASKCOS合成规划软件与机器人流合成平台的相结合,是其潜在的机遇。这证明了机器学习CASP工具在推荐自动化执行的路线和条件时是有用的;然而,路线和条件推荐仍然需要细化(例如,指定浓度和反应时间),并进行离线优化(例如,适合流动化学),然后在机器人平台上执行。自动化系统的其他选择包括使用循环流体的闭环DMTA循环、自动化实验室和超高吞吐量实验。一些制药公司目前正在将逆向合成计划软件集成到闭环自动化中。在礼来公司,ChemoPrint已经成功集成到一个自动化的化学合成平台。但这些实例仅局限于单步合成方案,对项目的推动作用不大。作为概念验证,本实验证明了CASP与自动化耦合驱动DMTA循环的可行性。

用于采纳。2017年,一小群化学家在三家制药公司接受调查时,要求对一个合成规划平台的最重要特征进行定义,以推广采用。受访者认为最重要的6个特征分别是:

(1)一个便于使用和直观的界面交互的路线;

(2) 一种方法来探索文献的先例与路线建议;

(3) 用户可自定义他们希望被打破的键来指导搜索;

(4) 路线终止于可购买的起始材料;

(5) 官能团不相容和不稳定化合物的识别,并提出保护集团策略,以绕过这些并发症;

(6)对排序路线实施评分系统。

作为研究界
我们如何才能使CASP变得更好?

建立成功的度量标准。评估单步逆向合成模型性能的最常见的指标是top-k的准确性。对小型的k(1-3)使用top-k精度的模型评估表明,发表的方法是少数正确答案之一,而实际上,逆向合成是一个模糊的预测。虽然数据库中没有记录多个答案,但可能存在许多正确的基本事实,因此像top-10精度(或更大的k)这样的指标更合适,但也会提高精度,这可能不能正确反映模型性能。

另一个重要但经常不被报道的指标是预测的多样性。从大多数化学家的观点来看,top-k的准确度可能并不总是选择逆向合成工具的最重要因素。在路线规划中,一个尚未考虑到的关键断开与建议的可行性同样重要。一个高度可行却不实用,但很明显的建议是简单的官能团相互转换,其中的复杂性并没有建立(但经常在历史反应数据中看到)。相反地,一个不可行的但非常有用的却不明显的建议是,在没有已知的化学物质能够实际进行反应的情况下断键。使用top-k精确性来为单步预测打分,使研究者能够获得可行的建议,同时使用启发式来引导模型走向有用的断开。这种权衡只能由专业的化学家来评估,他们可以从许多建议中挑选出来;然而,这些化学家的评分是主观的,往往偏向于他们熟悉的化学物质。为全社区采用定义理想的度量标准的困难在于平衡精确模型的开发和提供不同建议的模型。

数据决定了常用的基准以及评价方法。众所周知,机器学习模型可以从更多更丰富的数据中获益。文献报告中记录了关于路径演化的讨论,但在转换为数据库条目时并不总是会捕获到。这一信息对于化学家在规划路线时确定策略非常有用,但在建立模型时却没有得到。此外,记录文献报告的数据库通常只包含了收益率较高的正向数据。大多数反应预测者都接受过成功反应的训练(USPTO和Reaxys数据集),因此,他们无法预测一个反应是否会有低的转化率。而在反应混合物中的侧产物或副产物的完整表征通常是不公开的,因为识别所有化学物质需要很高的时间和成本,因此,限制了研究者构建反应性预测模型的能力。最后,有一些数据被捕获却没有报告。然而,数据获取正日益成为许多公司感兴趣的话题,他们的报告有望进入公共数据集。与使用统计学习的方法相比,使用专家编码规则的CASP方法对数据可用性不那么敏感。尽管如此,这些方法仍将受益于更丰富的数据,因为制定规则的专家将更好地了解反应。

展望与结论

目前基于机器学习的CASP工具,减轻了化学家合成规划的认知负担。随着用于合成规划的机器学习模型的不断发展,化学家们越来越接受使用CASP来减轻他们的工作量,将使得这些工具得以改进,以适应不同化学领域的需要,并处理日益复杂的合成挑战。

参考文献

Thomas J. Struble, Juan C. Alvarez, Scott P. Brown, Milan Chytil, Justin Cisar, Renee L. DesJarlais, Ola Engkvist, Scott A. Frank, Daniel R. Greve, Daniel J. Griffin, Xinjun Hou, Jeffrey W. Johannes, Constantine Kreatsoulas, Brian Lahue, Miriam Mathea, Georg Mogk, Christos A. Nicolaou, Andrew D. Palmer, Daniel J. Price, Richard I. Robinson, Sebastian Salentin, Li Xing, Tommi Jaakkola, William. H. Green, Regina Barzilay, Connor W. Coley, and Klavs F. Jensen. Journal of Medicinal Chemistry 2020 63 (16), 8667-8682. DOI: 10.1021/acs.jmedchem.9b02120