中大唯信·唯信计算

前沿(第七期)：Nat. Commun. | 机器学习提高极化连续模型(PCM)预测溶剂化能的能力

背景介绍

溶剂化自由能是研究溶液中热化学的关键物理特性之一，大多数现实生活中的化学都发生在溶液中。在液相化学的理论研究中，自由能通常由物理或化学反应的反应速率和平衡常数计算。但直接评估溶液中的自由能却很困难，因为它有时需要对相空间进行适当的采样，并对溶剂和溶质之间的非共价相互作用进行适当的处理，这会对两者的电子结构产生显著的影响，从而影响微观和宏观观察。

评估溶剂化自由能的物理化学的理论方法通常可以分为两大类，即显式溶剂方法和隐式溶剂方法。在显式溶剂方法中，溶剂分子被明确处理，并且通常通过分子动力学或蒙特卡罗模拟获得的轨迹来评估自由能。为此，在过去的几十年中已经开发了许多有效的自由能估计方法，如热力学积分、自由能微扰和直方图分析方法,使用机器学习预测溶剂化自由能的最新例子是Vermeire和Green开发的模型。他们的模型是基于通过一百万个QM评估的自由能数据而开发的，并对其进行微调以准确再现实验确定的溶剂化自由能。他们模型的MUE为0.21 kcal/mol，这是目前有史以来最准确的溶剂化自由能预测结果。本文旨在现有精确度上，建立新的机器学习溶剂化模型，更准确高效的预测溶剂化自由能。

主要内容

PCM模型将溶剂视为连续介质并计算放置在其中的溶质的溶剂化能量分量，作为计算化学中的标准方法，被各种科学学科广泛应用。然而当前广泛使用的溶剂化模型在再现实验确定的溶剂化自由能方面要么不准确，要么需要许多并不总是容易获得的宏观值，因此并不理想。为此，来自奥尔肖森斯特尔基督教大学物理化学研究所的Amin教授等人在PCM模型的基础上开发了引入了机器学习的极化连续溶剂化模型(ML-PCM)，从而大幅提高了溶剂化自由能的可预测性。该文章开发模型的性能和可靠性通过严格和苛刻的验证程序进行了验证，此外，研究结果表明ML-PCM模型将广泛接受的连续溶剂化模型的准确性提高了几乎一个数量级，且没有额外的计算成本，MUE低至0.2439 kcal/mol。相关的研究成果以题为“Improved Prediction of Solvation Free Energies by Machine-Learning Polarizable Continuum Solvation Model”发布在国际著名期刊Nature Communications上。

图表汇总

图 1. 开发的ML-PCM/COSMO RS(B3LYP)模型的MUE与隐藏层神经元数量

图片来源于Nature Communications

表1. 溶剂种类的样本预测

表格来源于Nature Communications

表2. 主要元素的样本预测

表格来源于Nature Communications

图2. 各种溶剂化模型的实验值和预测值对比

图片来自Nature Communications

表3. 新方法与其他模型的对比结果

表格来源于Nature Communications

推荐理由

本篇文章提出了一种基于机器学习的PCM模型，与传统的通过简单和特别的表达式来整合和修改计算出的能量分量的PCM模型不同，该文章采用的机器学习展示出了其在显著改善溶剂化自由能的可预测性方面的效率。此外对于机器学习来说，溶剂化自由能参考数据中固有的不准确性也会影响训练效率和对模型性能的推断，该文章证明了在机器学习的帮助下，连续溶剂化模型在评估溶剂化自由能方面得到了实质性的改进。此外该文章提出的方法将机器学习整合在SCRF计算中，可用于通过各种溶剂化模型修改预测的溶剂化自由能，实现了机器学习溶剂化能计算准确度的新突破。

参考文献

Amin Alibakhshi, and Bernd Hartke, Improved Prediction of Solvation Free Energies by Machine-Learning Polarizable Continuum Solvation Model, Nature Communications, 2021, 12, 3584. DOI: 10.1038/s41467-021-23724-6.