中大唯信·唯信计算

引言

贝叶斯优化算法是一种基于响应面的迭代全局优化算法，在机器学习模型的调整中表现出了卓越的性能。贝叶斯优化最近也在化学领域得到了应用，然而，它在合成化学反应优化中的应用和评价尚未得到研究。在这里，研究者报道了贝叶斯反应优化框架的开发和一个开源软件工具，它允许化学家轻松地将最先进的优化算法，集成到他们的日常实验室实践中。

先睹为快

来自美国普林斯顿大学的Ryan P. Adams & Abigail G. Doyle等研究者，为钯催化的直接芳基化反应收集了一个大型基准数据集，与人类在反应优化中的决策进行了系统的贝叶斯优化研究，并将贝叶斯优化应用于两个现实世界的优化工作 (Mitsunobu和脱氧氟化反应)。基准测试是通过一款在线游戏完成的，该游戏将化学家和工程师所做的决定与实验室中的真实实验联系起来。研究结果表明，贝叶斯优化在平均优化效率(实验次数)和一致性(结果相对于初始可用数据的方差)两方面都优于人类决策。

化学反应的优化，是一项复杂、多维的挑战，需要专家评估各种反应参数，如底物、催化剂、试剂、添加剂、溶剂、浓度、温度和反应器类型等(图1a)。然而，在一个典型的实验室里，由于时间和材料的限制，实验室化学家，在一个标准的优化过程中只能评估这些条件的一小部分。在高通量实验(HTE)的现代进步扩展了实验能力，在有限的条件下可收集几千个数据点。因此，化学家的艺术是在数百万种看似合理的构型之间进行区分，而实验室的设备只能运行其中很小一部分的可能性。为此，化学家通常通过查阅化学文献以寻找类似的反应，并根据经验、机理理解、经验数据和简单的启发式方法直觉出反应成功的最具影响力的维度(即反应参数)来进行实验(图1b)。

图1. 贝叶斯优化的反应

图片来源于Nature

化学家通常也使用系统的、模型驱动的方法来优化反应。例如，实验设计(DOE)试图对实验条件进行取样，以便于反应参数建模和相互作用的反褶积(图1b)。结合响应面模型，DOE能够利用从以前的评估中获得的知识来指导未来实验的选择。然而，对反应空间的探索通常掌握在预先定义的优化设计、灵敏度分析、文献优先级和操作者的直觉之中。此外，尽管一个典型的反应需要大量的离散参数的微调，筛选要求随着使用最优设计的分类成分的数量呈指数增长。因此，在实践中，一些变量可能保持不变，以便在固定的实验预算上进行优化。

与反应优化相关的基本挑战并不是化学所独有的。机器学习是对从数据中学习的计算机算法的开发和研究，实践者的任务通常是找到模型超参数，从而优化性能。这个元挑战推动了算法优化的自动化方法的发展。贝叶斯优化是一种不确定性引导的响应面方法，用于优化计算成本较高的目标函数，该方法表现出了优异的性能，在许多情况下优于专业从业者和其他最先进的全局优化算法(图1c)。贝叶斯优化旨在平衡不确定性领域的探索和可用信息的利用，从而在较少的评估中实现高质量的配置。重要的是，贝叶斯优化算法可以应用于包括任意参数化反应域在内的多种搜索空间，并允许并行选择多个实验。因此，这种方法非常适合于化学过程的优化。然而，贝叶斯优化直到最近才引起化学学界的兴趣。选择的应用包括自动化学设计，高通量虚拟筛选和程序流化学。虽然研究人员已经开始探索机器学习方法在反应优化中的应用，但这些努力的目标是合成化学的一个有限子集，其中只包括连续过程参数。也就是说，据目前所知(1)没有应用于典型的批处理化学；(2)没有通用的软件平台，可以方便地为非专业人士使用；(3)没有系统地与专业化学家的性能进行比较。

在此，报告了一个用于贝叶斯反应优化的模块化框架的开发，以及与自动化系统(例如，计算机实验)和人在闭环实验中(例如，小规模筛选)兼容的开源软件。该方法旨在整合现有的合成化学实践，适用于任意搜索空间，包括连续和分类编码的反应，并允许包括物理和领域专家。

优化器的发展

对于给定的搜索空间，贝叶斯反应优化首先通过实验设计(如DOE或at random)或从已有的结果中收集初始反应结果数据(图1c)。这些数据被用来训练一个概率代理模型，该模型是通过将之前的观测结果与一个先验函数相结合来构建的，该先验函数捕捉了我们对反应响应面的假设(如平滑度和实验噪声)，这使得推断全局最优位置成为可能。在训练代理模型之后，通过优化获取函数，在反应空间中依次选择新的实验，以最大化候选实验的预期效用，用于下一次评估(图1c)。最后，对所提出的实验进行了验证，并将实验结果添加到记录中，并更新代理模型后验。这一过程不断重复，直到反应收率最大化，资源耗尽或空间探索到不太可能找到改进的条件。研究者首先开发了一个用于贝叶斯反应优化的灵活python包，名为“通过贝叶斯优化实验设计”(EDBO)。在EDBO的开发中，研究者强调了一个简单但模块化的界面、任意用户定义的反应空间的使用以及对人在回路或自动优化的适用性。研究者选择用不同的随机初始启动数据进行反应优化，选择平均损失小、结果方差小、最坏情况损失小的优化器配置。同时发现，利用密度泛函理论编码的反应空间、高斯过程代理模型和并行的预期改进作为获取函数(见下文)，利用可用的反应数据可以获得良好的优化性能。研究者从文献中收集了反应数据，用于优化器的开发和评估，图2选取了Suzuki Miyaura(1)和Buchwald Hartwig反应(2a-2e)的钯催化交叉偶联数据，其目标是在数百或数千种可能的反应条件组合的情况下优化所需产品的收率。

图2. 使用训练数据用于选择贝叶斯优化器参数

图片来源于Nature

研究者探索了基于化学描述子指纹的反应编码的使用，该编码基于通过DFT计算的反应组分的量子化学性质，使用开源库生成的化学信息学描述子和二进制单热编码(OHE)表示。在分别对每种数据类型的优化器进行优化后，研究者发现使用每种编码进行并行反应优化的平均损失，在很大程度上无法区分。然而，DFT编码描述符在最坏情况损失方面给出了最一致的结果(所有反应的产率≤5%，相对于Mordred和OHE分别≤15%和≤8%)。因此，研究者选择使用DFT描述符来进行剩下的实验。

接下来，研究者分析了各种代理模型的性能。一个有效的代理模型最基本的要求是做出预测和估计方差的能力。为了获得良好的性能，必须对代理模型进行优化。在这里，研究者根据反应1和2a-e的回归性能，选择了代理模型参数。研究过程中，研究者发现在平均损失、结果方差和最坏情况损失方面，带有Matérn内核的高斯过程模型提供了优于随机森林模型的优化性能。

训练代理模型后，通过优化获取函数，依次选择反应空间中的新实验(图1c)。贝叶斯优化(以及一般的主动学习方法)的中心原则是利用信息和不确定性来驱动优化。作为插值方法，常数平均高斯过程倾向于预测当前最佳观测值附近的最高产量。相比之下，通过选择预测不确定性最大的点进行评估，开拓性采集函数(纯搜索)将倾向于更彻底地研究整个响应面。为了演示二分法，研究者在同一点初始化后，在反应1的二维表示中追踪了开拓者和探索者的决定(图3a)。实际上，在前10次评估中，开发人员留在单个集群中，而探索人员则遍历整个空间，访问通过k-均值聚类确定了所有5个更大的集群。接下来，研究者通过测量其对整个空间的适合度，来跟踪与每个获取函数相关的代理模型的理解(图3b)。在50个实验过程中，探索者和开拓者的分数出现了分歧，因为探索者更适合反应表面。最后，研究者考虑了两种算法研究的每个反应的产率(图3b)，发现探险者和开拓者选择的大多数点分别给出了低产率和高产率。

图3. 反应优化中的探索与开发的平衡

图片来源于Nature

在实践中，从平衡探索和开发的实用程序中，得到的采集函数通常在非凹优化中提供更好的性能。重要的是，该实用程序可以写成模型后验分布的函数，这使得评估成本低廉，并使信息收集明确地纳入候选选择中。另外，由于高斯过程代表了函数的分布，人们可以绘制并最大化候选模型，使其适合信息可用的数据，并根据函数形状和未知区域的估计方差变化而变化——这个过程称为汤普森抽样。实际上，与纯粹的开发和探索相比，优化反应1的预期改进路径访问五个集群中的三个，对应的代理模型对反应响应面具有中等拟合(图3a-b)。

贝叶斯优化通常，可表述为一个次序问题。然而，对于许多反应优化问题，并行运行实验是至关重要的，因为时间是一个巨大的成本(许多反应需要数小时或数天才能完成)。而汤普森抽样自然适合通过抽样N个候选响应面，从高斯过程代理模型的后验预测分布。然而，为了实现分析性收集函数的并行决策，研究者迭代地预测能够最大化收集函数的实验，在每一步上采用前一次迭代的替代模型，并将其对最可能结果的预测纳入下一个选定的实验。研究者发现这些基本算法，在并行环境下提供了良好的性能。值得注意的是，对于反应1和2a-e，可以观察到并行优化(批数，5)与次序优化(批数，1)在50个实验预算下的平均表现一样好(p > 0.05)。

在建立了有效的获取和批处理策略后，研究者评估了平衡探索和开发的各种收集函数的并行优化性能(图3)。总体而言，研究者发现平行预期改善和汤普森取样都提供了出色的表现，并且他们的平均结果在统计学上无法区分(所有6个反应的p > 0.05)。然而，模拟运行结果的方差和最坏情况损失在汤普森抽样中更大。重要的是，预期改善的表现非常一致；经过30多个随机初始化，它在最优解的狭窄范围内收敛(最坏情况下损失≤5%收益率)。

基准测试

接下来，研究者从统计上评估了DOE方法与贝叶斯优化方法的性能。尽管DOE最常用于连续参数的优化，但研究者发现了两种有效地用于具有分类变量的化工过程优化的设计：广义子集设计(GSD)和D -优化设计。对于开发集合中的每个反应，这些基于DOE的优化在平均结果(p < 0.05)、标准偏差(贝叶斯优化，≤1.9；GSD≤6.9；D-优化≤3.3)和最坏情况损失(贝叶斯优化，≤5；GSD≤16；D-优化≤15)偏离贝叶斯优化。因此，在其他条件相同的情况下，贝叶斯优化在使用分类变量的反应优化中不仅应用更简单，而且性能更优越。

在对贝叶斯优化框架为反应优化进行了调整后，研究者在一个新的反应空间中进行了统计学性能测试。钯催化的C-H功能化，由于其不需要预功能化起始材料，就能产生分子复杂性而在制药开发中引起了越来越多的兴趣。杂环的直接功能化反应，是一种非常有吸引力的反应，因为它们普遍存在于生物活性化合物中。然而，对于一个给定的杂芳烃底物的功能化，往往需要改进反应条件，以达到最佳的反应活性和选择性。在这里，研究者测试了咪唑的直接芳基化，以反应3为例(图4)，这与商业化合成JAK2抑制剂BMS-911543的关键步有关(图1a)。

图4. 贝叶斯反应优化的统计验证

图片来源于Nature

反应优化真正开始于定义搜索空间。为了促进统计验证实验条件的详尽评估，研究者首先考虑了一组更大的似是合理的实验，然后通过无监督学习量化潜在反应条件之间的相似性，并选择那些研究者期望在更大的搜索空间中，得到满意分布的条件。

研究者认为，在Bristol–Myers–Squibb(BMS)直接芳基化研究中，选择合适的配体、碱、溶剂、温度和浓度对实现最佳反应收率至关重要。在这项研究中，研究者从70个潜在磷类化物中选择了12个配体(图4)。总体而言，研究者选择了一个包含1728种反应的子空间，包括12种配体、4种碱、4种溶剂、3种温度和3种浓度(图4)，作为一组易于处理的实验来作为真实情况。

接下来，研究者通过HTE收集了整个搜索空间的实验结果(图4)。然后，为了将贝叶斯优化的表现与人类专家的表现进行对比，研究者开发了一个游戏，跟踪不同背景和经验水平的化学家在优化反应3时所做的决策。虽然游戏的目的是在固定的实验预算下模拟反应优化，但数据是真实的。每次实验“运行”返回实验室中相应实验的实际结果。在游戏中，参与者有“一个月”的时间，来寻找反应的最佳条件，并有能力“每个工作日”进行一批五项实验。参与者通过一个返回结果，并跟踪他们决定的网络应用程序来“运行”他们的实验。

总共有50名来自学术界和工业界的专家化学家和工程师参与了反应优化游戏(图4c)。因此，贝叶斯反应优化器也玩了50次游戏(图4b)，每次都以不同的随机初始化开始。人类参与者和机器学习优化器之间的第一个比较点是他们在优化过程中每一步的原始最大观测产量。人类的初始选择明显优于随机选择(p < 0.05)，在第一批实验中发现的条件平均高出15%。然而，即使是随机初始化，在5个实验的3个批次中，优化器的平均性能超过了人类。值得注意的是，与人类参与者相比，贝叶斯优化>99%的时间，产出100%的实验预算。在前50个实验中，贝叶斯优化倾向于，发现全局最优条件 (CgMe-PPh, CsOPiv或CsOAc, DMAc, 0.153 M, 105°C)(图4b)。重要的是，据目前所知，CgMe-PPh还没有被用作咪唑直接芳基化的配体。因此，有经验的化学家起初倾向于不研究这种配体。

为了找到最佳的实验条件(约占实验空间的6%)，每个参与者最多有20批反应，共100个实验。然而，在实践中，大多数参与者进行的实验少于20轮，例如，因为他们认为自己已经获得了全局最优解(图4c)。因此，除了比较原始的优化路径之外，研究者还试图为数据集中的平均人类性能计算最佳和最差情况的边界。假设提前停止的玩家，如果继续玩下去，就不会获得更高收益的条件，我研究者得到了图4d所示的下限。这个边界接近原始平均值，达到第11批。相反地，假设玩家继续下去，他们在下一批实验中会达到100%的产量，可得到图4d所示的上限。这个不切实际的上界，非常接近优化器的平均路径。

有了原始数据和硬边界在手，研究者试图从统计学测试平均而言，是人类还是机器做出了最佳决策。为此，在优化的每一步，研究者进行韦尔奇t-检验，原假设是平均人类和贝叶斯优化性能是相同的。在图4e中，研究者绘制了每种情况的p值。p < 0.05表示可以拒绝原假设。也就是说，人类和贝叶斯优化的性能在统计上是不同的。对于原始数据和下界，研究者推断出经过平均第五批实验后，该优化器的性能优于人工优化。相比之下，对于上界，我们发现两种集中趋势之间没有统计学上的显著差异。因此，在反应3的优化中，在追溯了游戏记录数据的不现实输入上限，得出结论：贝叶斯反应优化的平均表现优于人类专家。

应用

在统计上验证了方法之后，研究者下一步进行了真实世界的贝叶斯优化测试案例，以优化与药物开发相关的反应。重要的是，研究者选择了，在不可能通过HTE详尽收集实验数据的更大反应空间上，应用贝叶斯优化。

脂肪醇的普遍存在，使它们成为合成复杂分子的理想材料。因此，直接利用醇的杂原子取代反应，在药物化学中起着至关重要的作用。Mitsunobu反应尤其常用，因为有各种亲核试剂可以与脂肪醇发生立体定向偶联。然而，标准条件通常只能提供中等的收益率。因此，定义明确但可扩展的潜在试剂阵列，使Mitsunobu反应，成为贝叶斯优化的理想测试案例。

研究者选择了3-溴-1H-吲哚-6-羧酸甲酯与苯甲醇偶联反应，反应空间由6个杂氮二羧酸、12个膦类化合物和5种溶剂组合而成(反应4；图5)。此外，研究者确定了基质浓度网格，杂氮二羧酸当量，磷类化合物当量和温度作为连续的工艺参数，给出了一个由18万个可能构型组成的反应空间。

有了搜索空间，研究者下一步使用BMS最常用的反应条件进行控制：1.1当量DIAD, 1.1当量PPh3, 0.1 M THF和25°C。这些标准反应参数，给出了平均60%的产量，超过了两个重复实验(59%和60%)。随后，研究者使用DFT编码、高斯过程代理模型和预期改进，作为收集函数进行贝叶斯反应优化，每个批次并行进行10个实验，初始实验随机选择。值得注意的是，研究者发现优化器很快就超过了基准结果，识别出三组不同的反应条件，仅在10次实验的4轮中就产生了99%的预期产品(图5)。高产实验采用了非常规条件，包括P(Ph)2Me、高浓度和高温。因此，优化器识别了反应空间区域的定量条件，通常不会被搜索。

有机化合物的氟化，由于其碳氟键的独特性质，在药物发现中起着重要作用。在此背景下，醇的脱氧氟化反应，是合成脂族氟化物最广泛使用的方法之一。在之前的一项研究中，Doyle小组报道了试剂结构的调整，可以使用磺酰氟对许多复杂的醇类，进行有效的氟化。因此，该反应为贝叶斯优化，提供了一个理想的测试用例。研究者选择了1-(6-硝基苯[d][1,3]二氧酚-5-基)乙基-1-醇的氟化反应，其反应空间由10个磺酰氟化合物、10个有机碱、5种溶剂和一个连续参数(底物浓度、磺酰氟当量、碱当量和温度)网格定义，给出了一个包含312,500种可能构型的反应空间。

图5. 贝叶斯反应优化的应用

图片来源于Nature

接下来，研究者对通常用于商用试剂的PyFluor的反应条件进行了控制(1.1当量PyFluor, 1.1当量DBU, 0.5 M THF和20℃)。在这些标准条件下，在两个重复实验(35%和36%)的平均产量为36%。接下来，研究者使用DFT编码、高斯过程代理模型和预期改进，作为收集函数进行了贝叶斯反应优化，每个批次并行进行5个实验，初始实验随机选择。研究发现，在五次实验的三轮中，优化器超过了基准结果，最终确定了在十轮实验中产生69%的预期产物的反应条件(图5)。重要的是，在两个测试反应中，贝叶斯优化识别了一系列实验条件，其参数设置与标准条件有很大不同。此外，优化器提供了多种配置，这些配置在大多数维度上都有所不同，但提供了相同的良好结果。

展望与结论

至此，研究者提出的方法具有任意并行性(即每批迭代实验可以选择任意数量的实验)，既可以快速筛选，又可以直接转化为大规模的工艺条件。综上研究表明，贝叶斯优化在平均优化效率(实验次数)和一致性(结果对初始可用数据的方差)两方面都优于人类决策。因此，在日常实验室实践中采用贝叶斯优化方法，可以通过更好的信息、数据驱动的决定，来促进更有效的合成功能性化学品。

工具下载地址

auto-qchem: https://github.com/b-shields/auto-QChem

EDBO: https://github.com/b-shields/edbo

https://doi.org/10.24433/CO.3864629.v1

EvML: https://github.com/b-shields/EvML

参考文献

Shields, B.J., Stevens, J., Li, J. et al. Bayesian reaction optimization as a tool for chemical synthesis. Nature, 2021, 590, 89–96. DOI: 10.1038/s41586-021-03213-y

实时关注公司行业最新动态

Nature | 贝叶斯反应优化在化学合成中的应用