Nature Machine Intelligence | 基于开箱即用的深度学习的药物特性预测

Nature Machine Intelligence | 基于开箱即用的深度学习的药物特性预测

引言

深度学习的质量和效率,在很大程度上,取决于被学习对象的表示。特别是,增强的药物学习,依赖于适当的分子表征(MolRs)。通过直接从分子的底层图形中,学习它们自己的优化表示,基于图形的MolRs从头学习,显著提高了对药物和物理化学性质的深度学习,优于那些基于传统的分子描述符(MolDs)和指纹特征(FFs)。因此,对MolRs的更广泛的探索,弥补了基于图的方法和其他方法的不足,从而增强了对药物性质的深度学习。许多MolDs和FFs,都来源于人类专家知识,用于全面描述分子的结构、物理化学、拓扑、结构和子结构特征,这些是有价值的特征生成和药物特性深度学习的先验知识。但关于如何将这些先验特征,转化为更合适的表征,仍然存在疑问。一般来说,良好的表征是任务非特定先知,它捕获了多个潜在解释元素的后验分布,能够对这些元素进行解纠缠和聚类,支持任务函数的平滑和灵活的局部泛化。例如,破坏-构造学习方法,能够识别高难度的细粒度图像。在破坏构造学习中,输入图像被分割成局部区域,然后对局部区域,进行洗刷以暴露有区别的局部特征,然后重构以揭示语义跨区域的相关关系,从而在三个基准数据集上,实现了最先进的(SOTA)性能。因此,适当的特征生成,可以通过广泛分析不同的MolDs和FFs,相对于已知化学空间中的大量分子的内在相关性来建立。此外,利用卷积神经网络(CNNs)的共享权值架构,将一维无序向量转换为二维(2D)聚类特征映射(Fmaps),可以实现高效的学习(参数保存)。这种特征生成方法的发展,可以通过对MolRs、开源工具、相关度量、化学多样性和特征的量化,以及维数缩减法的广泛研究来促进。这篇文章中,研究者开发了一种新的分子特征生成方法MolMap,用于将MolDs和FFs映射为鲁棒的2D Fmap,捕捉分子特征的内在相关性(本文中所使用的的数据集总结如表1)。

深度学习背景

目前,基于四个MolR类,可进行药物性能的深度学习。

1. 第一个是基于图的特征表示,其中的图卷积网络(GCNs)或图注意力网络(GATs),已被探索用于直接从分子的底层图进行从头学习,获得SOTA在制药相关任务中的性能。

2. 第二种是基于字符串的表示,其中CNN和递归神经网络已被用于从化学结构的字符串表示的嵌入中学习(例如,典型简化的分子输入行输入系统(SMILES))。

3. 第三种是图像表示,CNN已被用于,从基于规则的二维化学数字网格或Kekulé图像渲染中学习。

4. 第四种是基于知识的表示,深度学习模型已经开发出来,用于从先验的人类知识衍生的模型或FFs中学习。

Nature Machine Intelligence | 基于开箱即用的深度学习的药物特性预测

表1. 本研究基准数据集总结

表格来源于Nat. Mach. Intell.

虽然在不依赖人类直觉的情况下,探索较低级的表示方式是更好的,但广泛的MolDs和FFs知识基础,对于从人类知识的角度学习MolRs和药物特性,是非常有用的。特别是,MolDs和FFs的子集显示出高度的相关性,这为合适的MolRs提供了独特的线索。一些MolDs或FFs是通过设计相关的(例如,MolWeight和MolExactWeight),而一些不相关的MolDs显示出高度的内在相关性。化学筛选收集的调查显示,极性表面积与氢键受体和供体的数量有关。这些相关的MolDs或FFs的聚类以及它们在2D fmap中的投影,使特征模式聚类,能够通过共享权CNN架构进行高效学习。为了协调学习MolDs和FFs,最好使用MolDs和FFs的通用相关度量。余弦相关与在某些基于FF的分子研究中广泛使用的谷本系数,和在一些基于MolDs的分类任务中广泛使用的欧氏距离一样,一直表现得相当好。因此,余弦相关可以用于基于MolD/FF的特征生成。要从CNNs的MolDs和FFs中学习,需要将高维MolDs和FFs投影到2D Fmap中,这需要一个流形学习算法,且信息损失最小。最近开发的统一流形近似和投影(UMAP)工具,基于黎曼几何和代数拓扑算法,已经证明了这一任务的竞争力。

MolMap Fmap

利用MolMap包(图1),研究者生成了阿司匹林及其类似物N -乙酰邻氨基苯甲酸的MolD和FF Fmap(图2)。尽管这些分子在结构上高度相似,但它们的MolD Fmap包含小范围的明显不同的图案,它们的FF Fmap包含明显不同图案的区域。这些模式(例如,图2中的紫色和浅蓝色虚线框)可以被典型的CNN过滤器捕捉到。在MolD Fmap中,不同的MolD类别主要集中在不同的区域。在FF Fmap中,PharmacoErGFP FFs与其他FFs基本分离,而MACCSFP和PubChemFP FFs互补分布在同一区域。此外,相关的MolDs或FFs形成集群。例如,例如,三种药物相似(QED) MolDs的定量估计(MolQedWeightsMax、MolQedWeightsMean和MolQedWeightsNone)聚在一起(图2),其他各种相关的MolDs也聚在一起。这些结果表明,MolMap fmap在分子和结构特征上,具有独特的表征和内在的相关性。

Nature Machine Intelligence | 基于开箱即用的深度学习的药物特性预测

图1. MolMap特征展现流程表

图片来源于Nat. Mach. Intell.

 

Nature Machine Intelligence | 基于开箱即用的深度学习的药物特性预测

图2. MolMap多通道描述符和指纹Fmaps

图片来源于Nat. Mach. Intell.

 

Nature Machine Intelligence | 基于开箱即用的深度学习的药物特性预测

图3. MolMapNet深度学习架构

图片来源于Nat. Mach. Intell.

 

Nature Machine Intelligence | 基于开箱即用的深度学习的药物特性预测

表2. MolMapNet在15个基准数据集上的性能与基于图的模型进行的比较

表格来源于Nat. Mach. Intell.

相对于基于SOTA图的GCN/GAT模型的

MolMapNet的深度学习性能

GCNs/GATs在许多基准数据集上,都达到了SOTA性能。在这些GCN-/GAT测试的数据集中,有13个药物(3个分子结合,6个生物活性,3个毒性,1个药代动力学)和3个物理化学数据集,具有可用的数据分裂代码。因此,研究者在这16个数据集上开发了MolMapNet OOTB模型(图3),并使用相同的数据分割、评价度量和(针对多任务数据集)多任务训练方法,将其与发布的GCN/GAT模型(表2)的性能进行比较。在12个药品数据集中的9个上,MolMapNet优于分子网模型和定向消息传递神经网络(D-MPNN)模型,但在所有3个物理化学数据集上,MolMapNet的表现低于GCN模型(表2)。在8个药物数据集中的7个上,MolMapNet的表现也优于AttentiveFP模型,但在所有3个理化数据集上,MolMapNet的表现低于GAT模型。这些结果表明,MolMap Fmaps是非常合适的MolRs, MolMapNet在学习SOTA的药物特性方面,是非常有用的。MolMapNet在物理化学数据集上表现不如GCN/GAT模型,部分原因如下:MolMapNet从MolDs中学习,其中一些MolDs是计算出的物理化学性质(例如,计算出的logP、clogP)。物理化学性质的MolMapNet学习,受到物理化学性质值的计算MolDs的内在误差的影响(例如,药物的clogP值与实验值之间的相关系数为0.955)。GCN/GAT从头学习算法避免了这些内在错误,因此对学习物理化学性质更有优势。在12个基准数据集上,MolMapNet OOTB模型与D-MPNN模型和AttentiveFP模型相比,在10个不同的数据分割随机种子上,进一步评估了MolMapNet OOTB模型的性能。除物理化学性质预测任务外,MolMapNet对不同种子的预测均表现出更好的表现,其差异与D-MPNN和AttentiveFP模型相当或更小。在三种物理化学性质预测任务中,MolMapNet的表现大多优于D-MPNN和AttentiveFP模型,但仍表现出与D-MPNN和AttentiveFP模型或两者相似的变化模式。

相对于基于化学图的CNN模型的

MolMapNet深度学习性能

基于化学图的CNN模型,在没有化学知识的情况下,对药物和理化性质的深度学习表现良好。其中一些CNN模型端到端的学习深度高达19层,而MolMapNet是一个层次更少的CNN。MolMapNet对这些CNN模型的差异性能,部分反映了MolMap Fmaps在学习药物特性方面的差异能力。值得注意的是,基于图像的19层CNN KekuleScope模型在8个癌细胞基准数据集上,记录了出色的性能,这些模型的性能可以与MolMapNet模型进行比较,因为这些模型的数据集和数据分割代码都是可用的。因此,在这8个基准数据集上开发MolMapNet OOTB模型,并使用相同的数据分割和评价指标,与KekuleScope模型(表3)发布的性能进行比较。MolMapNet在所有8个数据集上都优于KekuleScope模型(预测值和观测值之间的Pearson平方相关系数R2 = 0.583-0.734 versus R2 = 0.427-0.622)。

Nature Machine Intelligence | 基于开箱即用的深度学习的药物特性预测

表3. MolMapNet在单任务和多任务基准数据集上的性能

表格来源于Nat. Mach. Intell.

相对于基于分子描述符的

多任务全连通深度神经网络模型的

MolMapNet深度学习性能

研究表明,多任务全连接深度神经网络(FC-DNNs),在预测药物性能方面比单任务FC-DNNs表现更好。特别是,基于自动编码器(AE)的模型和赛诺菲-安万特FC-DNN模型,在两个多任务基准数据集(CYP同工酶抑制剂数据集和肝微粒体清除数据集)上获得了出色的性能。在多任务学习中,MolMapNet可能在多任务学习中更合适的MolRs竞争。因此,研究者在这两个多任务数据集上,开发了多任务MolMapNet OOTB模型,并分别采用相同的数据分割、评价度量和多任务训练方法,与基于AE和Sanofi-Aventis模型的公布性能,进行了比较(表3)。在CYP450数据集上,MolMapNet在五项任务中的三项上表现低于基于AE的FC-DNN模型,但三项表现不出色的任务的受试者工作特征曲线下面积(ROC-AUC)值与基于AE的FC-DNN模型具有可比性。在肝脏微粒体清除任务上,MolMapNet在所有三个任务上都优于Sanofi-Aventis模型。总的来说,MolMap Fmaps和多任务MolMapNet体系结构,在多任务学习药物性能方面是有竞争力的。

MolMapNet深度学习模型的

单路径和双路径相比较

图4显示了MolMapNet OOTB模型,在MoleculeNet数据分割和AttentiveFP数据分割的11个基准数据集上的性能比较。对于回归任务,在5个回归数据集中的3个上,仅MolD-单路径(MolMapNet-D)模型的表现,与联合MolD和FF双路径(MolMapNet-B)模型相当或更好。对于分类任务,仅FF单路径(MolMapNet-F)模型,在6个分类数据集中的4个上的表现与MolMapNet-B模型相当。有趣的是,与MolMapNet-D模型相比,MolMapNet-F模型在回归任务中表现稍差,但在分类任务中表现稍好。有趣的是,MolMapNet-D模型的输入Fmap是定量MolDs(例如分子量),而MolMapNet-F模型的输入Fmap是分类FFs(0或1)(图2)。因此,MolMapNet-D模型往往更适合于回归任务等连续预测器,而MolMapNet-F模型更适合于分类任务等分类预测器。总的来说,MolMapNet-B模型利用了这两种输入类型(MolD和FF fmap),因此在回归和分类任务中具有高度的竞争性。

Nature Machine Intelligence | 基于开箱即用的深度学习的药物特性预测

图4. 单路径MolMapNet-D、MolMapNet-F和MolMapNet-B模型在基准数据集上的性能

图片来源于Nat. Mach. Intell.

相对于k-近邻模型的MolMapNet深度学习性能

MolMapNet OOTB模型的表现,部分归因于预训练的MolMap Fmap。为了探讨这种预训练对分类性能的影响,研究者对有和没有预训练的FF Fmap模型进行了评估。具体而言,MolMapNet-F OOTB模型与k-近邻 (kNN)模型的性能进行了比较,kNN模型与MolMapNet-F模型,在5个分类基准数据集(BACE、BBBP、HIV、ClinTox和SIDER)上,建立的相同的三个FF集以及分子网数据分割。MolMapNet-F OOTB模型的ROC-AUC值分别为0.843/0.851、0.744/0.677、0.774/0.728、0.869/0.806,BACE、BBBP、HIV、ClinTox和SIDER数据集的ROC-AUC值分别为0.684/0.630。相比之下,对于BBBP、ClinTox、HIV和SIDER数据集,分子网和Chemprop模型中最好的ROC-AUC值分别为0.806、0.738、0.776、0.864和0.676(表2)。因此,MolMap预训练有利于增强药物特性的学习。值得注意的是,所有kNN模型都表现良好,其中BACE模型优于GCN和MolMapNet OOTB模型。这些表现部分归因于,通过三个MolMap选择的FF集所选择合适的MolRs。之所以选择这些FF集,是因为它们的MolMap Fmap与其他FF集相比,呈现出不同的、更密集的聚集模式,从而促进了增强学习。

优化的与OOTB MolMapNet深度学习模型

通过粗粒度网格搜索优化MolMapNet-B模型的4个超参数:用于增强特征表示的UMAP特征生成参数,批量大小用于改进收敛性和性能,第一个卷积层的核大小为更有效的接受域,以及密集层的宽度用于改进了多任务分类。首先,分别对每个超参数进行优化。对ESOL、BACE和Tox21数据集的UMAP优化表明,减少邻居数量,通常通过提高局部特征分布的精度,来提高性能。对ESOL和FreeSolv数据集的批量大小优化表明,减少批量大小可以加速收敛并提高性能。在BACE数据集上的核大小优化表明,增加核大小可以通过更有效的接受野增强学习。密集层宽度优化表明,节点数量的增加提高了多任务性能,扩展了信息处理能力,超出了主要为单个任务定制的OOTB设置。其次,在8个数据集(ESOL、FreeSolv、Malaria、BACE、HIV、MUV、PCBA、ChEMBL)上使用MoleculeNet和AttentiveFP数据拆分,对4个超参数进行了综合优化。在优化前,12个MolMapNet-B模型中只有5个优于SOTA GCN/GAT模型。优化后的9个模型在相同的数据分割下,优于SOTA GCN/GAT模型。其中,FreeSolv模型的RMSE从1.075降低到0.916,降低了14.7%;MUV模型的精确回忆曲线 (PRC-AUC)值下面积从0.109增加到0.158,增加了44.9%。对于三个表现不佳的MolMapNet-B模型,它们的MolMapNet-D对应模型实质上更好,其中两个模型在相同的数据划分中优于SOTA AttentiveFP GAT模型(在ESOL数据集上RMSE为0.477对0.486,在FreeSolv数据集上RMSE为0.728对0.773)。

MolMapNet对新化合物的泛化能力

MolMapNet对从ChEMBL数据库中,提取的216和179种新的BACE高效和低效抑制剂(nace数据集)进行评估。NBACE和BACE数据集之间的分子相似性模式通过TMAP可视化,NBACE和BACE数据集的化合物谷本系数为0.23和0.61。谷本系数<0.7,通常表示遥远的相似性。采用NACE数据集对经BACE训练的MolMapNet-F模型进行性能测试,并与D-MPNN和AttentiveFP模型进行比较。MolMapNet-F模型的灵敏度和特异性分别为70%和84%,而GCN D-MPNN模型的灵敏度和特异性分别为48%和81%,AttentiveFP4模型的灵敏度和特异性分别为63%和63%。

MolMapNet学习了

深层潜在特征和重要的输入特征

为了探究MolMapNet学习的深层潜在特征和重要输入特征,研究者首先分析了在ESOL数据集上训练的MolMapNet-D溶解度模型和AttentiveFP数据分割。主成分分析(PCA)对全局最大池化层(全连接层之前)的潜在特征进行分析,这些潜在特征是根据溶解度值进行聚类的。因此,面向任务的聚类是一种深层潜特征。根据排列算法和均方误差(MSE)度量计算的重要度得分,得到重要的输入特征。来自训练集和测试集的重要输入特征是相关的(Pearson r = 0.92)。将最重要的输入特征E-state、QED、电荷和拓扑指数聚在一起。E-state指数编码了与溶解度预测相关的拓扑环境和电子相互作用。QED描述符量化药物相似性,并显示口服药物的溶解度和渗透性。电荷描述符。反映了影响溶解度的离子相互作用。接下来,研究者分析了在BACE数据集上训练的MolMapNet-F BACE抑制剂模型的重要输入特征。排在前几位的重要FFs包括5个PubChemFP FFs和7个MACCSFP和PubChemFP FFs,这些FFs在BACE强效抑制剂中常见,但在低效抑制剂中较少。重要性得分前50名的FFs被映射到每个分子的单个原子和键上,可以用不同的颜色方案直观地显示出来,以揭示深度学习模型认为重要的子结构。在分析典型的2-氨基喹啉抑制剂及其结构上的近邻2-氨基苯并咪唑抑制剂时,结果表明,高效阻垢剂BACE_276的疏水碳链是BACE活性的重要亚结构,这与构效关系研究的结论一致。前50个重要特征。可用于提示BACE抑制支架。通过这种方法,收集到的26种临床试验BACE抑制剂药物中,有25种被鉴定为高效抑制剂,而剩余的药物PF-04976081由于是一种新型的分子支架,缺少一个可识别的高度重要的亚结构。因此,研究者的分析表明,MolMapNet可以很好地捕获对药物相关特性重要的摩尔体,从而增强对这些特性的预测。

展望与结论

药物特性的准确学习和预测是一项具有挑战性的任务,特别是对于低数据案例和新颖的预测任务。适当的MolRs,对于增强学习和预测能力是至关重要的。基于图形的MolRs从头学习,已经取得了显著的进展。在这些显著的进步之上,对MolRs的更广泛的探索,有助于为增强学习和预测能力提供更多的视角。特别是,通过对广泛的人类先验知识基础进行更广泛的学习,适当的MolRs可能来自于MolDs中丰富的结构、结构和物理化学性质以及FFs中多种多样的子结构,从而促进了对药物特性的深度学习。MolMap等新工具促进了MolDs和FFs的特征生成,并将其转化为2D Fmap,捕捉深度学习应用的分子特征的内在相关性。

在这些Fmap的基础上,共享权CNN架构可以用于增强学习和预测药物特性。为了减少技术障碍并支持更广泛的应用,研究者希望将深度学习模型开发为OOTB工具。因此,研究者开发了基于CNN的深度学习MolMapNet模型,用于药物属性的OOTB深度学习,在26个基准数据集的大部分上,与已建立的模型具有很强的竞争力。深度学习模型探索了,更广泛的表示和特征生成策略(例如,基于图的DNN指纹),并不断取得进展。对这些和已建立的策略的集体探索,使更强的深度学习和预测药物和其他分子特性成为可能。

工具下载地址

https://github.com/shenwanxiang/bidd-molmap

https://codeocean.com/capsule/2307823/tree

参考文献

Shen, W. X., Zeng, X., Zhu, F. et al. Out-of-the-box deep learning prediction of pharmaceutical properties by broadly learned knowledge-based molecular representations. Nat. Mach. Intell. 2021, ASAP. DOI: 10.1038/s42256-021-00301-6.