引言
溶剂化自由能是影响各种化学和生物学过程的基本属性,例如反应速率、蛋白质折叠、药物结合和药物的生物利用度等等。本工作中,作者提出了一种基于图网络的深度学习方法,可以准确地预测有机小分子的溶剂化自由能。所提出的深度学习模型包括三个阶段,即信息传递、相互作用和预测,能够预测任何通用有机溶剂中的溶剂化自由能,平均绝对误差为0.16 kcal/mol。在准确性方面,当前模型目前优于所有此前提出的基于机器学习的其他模型。此外,作者对基于机器学习的模型的鲁棒性进行了全面测试,并通过几个示例验证了其解释预测的能力。
背景介绍
溶剂化是一个主要由溶质和溶剂分子之间相互作用的性质驱动的过程,在许多物理、化学和生物过程中具有极其重要的意义。大多数化学和生物过程都在溶液中发生,因此,溶剂化自由能起着核心作用。溶剂化自由能与分子设计中至关重要的许多目标特性以及其他重要应用有关,并且可以使用溶剂化自由能来评估药代动力学性质,即分布和吸收。当前溶剂化自由能的计算通常使用分子动力学(MD)模拟进行,并且主要使用炼金术自由能方法进行。两种最常用的炼金术方法是自由能微扰(FEP)和热力学积分(TI)。这些方法已显示出与实验结果相媲美的自由能值,但同时这些方法在计算上也是昂贵的,这使得定量快速和准确地估计溶剂化自由能难以实现。
在过去的几年中,已经提出了几种使用FreeSolv数据集的机器学习方法来预测类药物分子的水溶性。这些方法固有地限于对单一溶剂(水)的溶剂化自由能的预测,并且不能推广到所有有机溶剂。最近,Lim和Jung提出了一种模型“Delfos”,该模型使用递归神经网络来预测分子在任何通用溶剂中的溶解度。在Delfos模型中,使用Mol2Vec特征化手段从SMILES序列获得分子embedding。尽管SMILES表示已被广泛用作类药物分子的特征表示,但近年来已广泛转向基于化学图的表示。这主要是因为SMILES表示方法的局限性:首先,SMILES表示没有明确说明分子相似性,使得使用基于深度学习的模型学习SMILES语法存在一些挑战;另一方面,基于化学图的表示形式可以恰当地捕获分子结构,并且可以更轻松地对与化学性质相关的药效团进行建模。
本文研究中,作者提出了一种化学可解释图相互作用网络(CIGIN),用于预测有机小分子在任何常用有机溶剂中的溶剂化自由能。该方法在分子图上工作,使用信息传递神经网络(MPNN)和相互作用层精确地模拟溶剂化自由能,并且作为预测任务的一部分计算出的相互作用图能够解释溶剂化自由能的大小。作者进行了广泛的分析以评估模型的预测能力和鲁棒性,并且使用了几个示例来证明相互作用图的化学可解释性。此外,作者以前药开发为例说明了该模型的潜在用例。
方法
数据集:结合使用Solv@TUM数据库和FreeSolv数据集。Solv@TUM数据库具有5952个溶剂化自由能的实验值。使用由元素C,H,N,O,F,P,Cl,S,Br和I组成的分子,其余的元素被滤出,总共形成5597个唯一的溶质-溶剂对。由于此数据集仅包含非水溶剂中的溶剂化自由能,因此将包含642种有机分子的水合自由能的FreeSolv数据集与该数据集结合,这样就得到了总共6239种独特的溶质-溶剂对组合,其中包括935种独特的溶质和146种独特的溶剂。使用RDKit处理最终数据集以构建分子图。
分子图:使用RDKit提取分子给定的节点(原子)和边(键)特征,并使用Deep Graph Library(DGL)制备分子图。
建模:如图1所示,所提出的模型包括三个不同的阶段:信息传递阶段、相互作用阶段和预测阶段。
训练:所有的训练、验证和分析都是使用PyTorch框架进行,将数据集分为10个子集,其中1个用作测试集,其余9个成为训练集。此外,为了确保测试集的最小差异,进行了五次独立的10倍交叉验证。
图1. 基于图神经网络的体系结构
图片源自JCIM
结果1. CIGIN预测的化学准确性和模型的鲁棒性
作者统计了相对于不同溶剂-溶质对的实验溶剂化自由能和预测溶剂化自由能之间的相关性。两者之间达到了近乎完美的线性关系,R2值为0.98,即超过98%的预测值都在实验溶剂化自由能值的1 kcal/mol的差值之内。同时还比较了CIGIN模型的不同变体相对应的MAEs,CIGIN模型在五个独立的10倍交叉验证中获得的预测溶剂化自由能的准确性很高,平均绝对误差为0.16±0.01。此外,作者通过去除模型不同的阶段来检验每个阶段的重要性,如通过信息传递层学习分子embedding可以帮助模型更好地捕获影响溶解度的特征。表1比较了MoleculeNet中提供的CIGIN、Delfos和MPNN基准测试的性能,显示CIGIN优于其他两个,并且在测试集上获得0.76±0.11的高精度。这也证明了原子间相互作用的共同学习有助于模型获得更好的性能。
表1. 使用平均绝对误差(kcal/mol)在FreeSolv数据集上比较CIGIN(本工作),Delfos和MPNN模型的性能
表格源自JCIM
结果2. 模型学到的化学信息
机器学习应用(尤其是自然科学)的主要质疑之一是缺乏可解释性。为了使CIGIN模型有用,它不应仅仅是黑匣子模型,而应提供有意义的化学信息和解释。如分子间相互作用的估计:CIGIN模型中的相互作用阶段旨在量化所有溶质-溶剂原子对之间的原子间相互作用。图2中给出了对叔丁醇和乙醇溶质-溶剂对的相互作用图。5×3矩阵对应于溶质的所有非氢原子与溶剂分子之间的相互作用。所计算的相互作用图的最小-最大归一化值被描绘为热图。在两个氧原子之间观察到最有利的相互作用,从化学意义上讲这意味着氢键相互作用。在乙醇的氧和叔丁醇的中心碳之间观察到最小的相互作用,这是由于中心碳原子不可及及其疏水性,这种相互作用是不利的;而在末端碳之间观察到中间值,这可以认为是疏水性贡献。
图2. 叔丁醇(溶质)和乙醇(溶剂)原子之间的相互作用图以及预测的溶剂化自由能
图片源自JCIM
结果3.在分子设计中的应用
CIGIN模型中引入的相互作用图的概念有助于理解原子级别的细节,尤其是当分子设计涉及两个实体的时候(例如,通过最大化与某种蛋白质的相互作用来设计分子)。以前药设计为例,设计前药涉及对高价值候选药物进行化学修饰,以改善其药代动力学特性并降低其毒性。例如,对药物进行化学修饰可有效地用于改变其溶解度,从而可提高其生物利用度;或者如果分子太亲水,则可以使用某些取代基团来增加亲脂性,从而改善跨细胞膜的渗透性。图3中提供了两个这样的例子。其中Penciclovir是一种核苷类似物,它是有效的抗病毒药物。但是,该药物的口服生物利用度仅为4%,经过化学修饰后可提高到75%以上,其前药famciclovir通过酯酶和氧化作用转化为原始药物。Penciclovir与其前药之间的ΔΔGhyd(目的是使前者更具亲脂性)为8.60 kcal/mol。CIGIN模型所做的这些预测很好地证实了实验观察,并且从药物到前药分子的相互作用图谱的变化解释了原子效应。因此,当需要对分子进行化学修饰以优化其溶解度分布图时,本文提出的预测模型以及相互作用图不仅可以用于准确的预测,而且可以通过相互作用图指导的定向修饰来帮助进行有效的优化。
图3. (a) Penciclovir及其前药famciclovir。(b)双氯芬酸及其前药双氯芬酸和甘油复合物
图片源自JCIM
总结
本文作者提出了一种基于图神经网络来预测有机分子在任何通用有机溶剂中的溶解度的新颖方法。所提出的模型框架包括三个阶段,即信息传递、相互作用和预测阶段。溶质原子与溶剂原子之间的原子间相互作用是通过相互作用图在端到端过程中共同学习的。通过几个示例说明在相互作用图中可以捕获不同的化学相互作用。同时通过实际使用案例,作者展示了其在前药开发中的潜在应用。最后值得一提的是,本文提出的模型可以用于研究任何两个分子系统之间的相互作用,例如药物-靶标相互作用,引入的相互作用图可以用于在优化分子的分子特征时提供一定优化的方向和参考。
代码下载地址
https://github.com/devalab/CIGIN/tree/master/CIGIN_V2
参考文献
Yashaswi Pathak, Sarvesh Mehta and U. Deva Priyakumar, Learning Atomic Interactions through Solvation Free Energy Prediction Using Graph Neural Networks, J. Chem. Inf. Model. 2021, 61, 2, 689-698. DOI: 10.1021/acs.jcim.0c01413.