JMC | 药物化学中的分子表征学习

本文要点

1. 研究者讨论了分子深度学习领域的积极研究将如何解决当前描述符和指纹的局限性,同时在化学信息学和虚拟筛选领域创造新的机遇。

2. 研究者简要概述了表征在化学信息学中的作用,以及深度学习中的关键概念,并认为学习表征提供了一种改进小分子生物活性和性质预测建模的新方法。

背景介绍

为什么表征重要?

从一系列复杂的观察中学习关键模式的能力是人工智能的一个核心方面。化学家利用这种能力寻找小分子先导物,并在治疗性发现中优化类药物的特性,在这一领域中复杂的化学和生物过程控制着小分子之间的相互作用。在结构模式识别中,一个经常被忽视但又不可分割的方面在于分子是如何被表征的。例如,图1显示了他汀类立普妥以多种人类可解释的方式绘制。从图像上看,大多数有机化学教科书都教学规范化的键线符号(图1,左),其中一个分子被描绘成一个化学图形,每个未标记的顶点对应一个碳原子。这种视觉符号可以很容易地说明分子的拓扑结构,但不同的方向和观点可能掩盖或揭示显着的模式。此外,键-线式符号忽略了三维形状(图1,中间)和柔性分子相关构象动力学(图1,右)的重要方面。

JMC | 药物化学中的分子表征学习

图1 分子的常规视觉、人类可解释的表征

图片来源 JMC

有效的分子表征对于统计和机器学习至关重要。几十年来在定量构效关系(QSAR)研究和分子相似性分析方面的药物发现研究表明,准确的预测依赖于分子特征(也称为分子描述符)的选择在机器学习中,这种手动发现和创建相关特征的过程被称为特征工程。

特征的选择对于任何机器学习管道都是至关重要的,并直接影响可以使用的学习算法的类型。大多数真实世界的过程产生的数据是不能线性分离的,如图2A中,无法找到区分红色和蓝色类的线性决策边界。领域专业知识和对产生观察数据的物理过程的理解可以激发特征转换,从而简化学习。在这个例子中,从笛卡尔坐标到极坐标的转换允许一个线性决策边界来分离两个类(图2B)。另外,添加新的相关特性可以帮助区分新维度中的类(图2C)。尽管这种方法在机器学习方面持续取得成功,但特征工程可能仍是困难和耗时的。

与特征工程相反,深度学习算法执行一种特征学习,也称为表征学习。深度学习模式不依赖于专家编码的特性,而是直接从观察到的数据中学习简洁而富有表现力的表征。图2D强调了一个简单的神经网络是如何自动学习一个新的且线性可分的内部表示,而不借助额外的工程。 

JMC | 药物化学中的分子表征学习

图2 表征的选择在学习中起着关键作用

图片来源 JMC

 我们需要新的分子表征吗?

分子表征简史

从亲脂性到三维几何,现有成千上万的实验和理论描述符被开发用于化学信息在药物发现中的应用,既然如此,这个领域是否需要新的分子表征呢?现有的描述符每个都编码不同的信息,但没有一种表示法能在所有任务中普遍有效地执行。

因此,大多数分子表示法编码针对特定用途而优化的信息。广泛使用的简化输入行输入系统(SMILES)和随后的国际化学标识符(InChI)只是用于此目的的词汇表示的两个例子,因为它们以标准化格式紧凑地存储分子图信息,以便于信息搜索。类似地,高效查询不断增长的化学数据库以快速进行子结构搜索的需求推动了基于密钥的位串指纹的发展,每个位表示分子特征或子结构的缺失或存在。

新表征法的发展也反映了研究的变化趋势和不断发展的技术景观。例如,在20世纪80年代和90年代,随着对结构活性建模和分子相似性分析的努力不断增加,产生了新的位串表示,并对旧的位串表示进行了再优化。同样地,对生物活性建模的不断推动推动了分子访问系统(MACCS)密钥指纹的重新优化,该密钥指纹最初是为基于专家编码特征的子结构搜索而设计的。随着QSAR研究的进展,X射线晶体结构的影响日益增加,加上额外的计算能力,推动了表征和方法的设计,以捕获三维结构和形状方面。基于几何距离的指纹和化学结构快速叠加(ROCS)等方法为利用空间信息进行3D-QSAR和形状-相似度分析提供了新的机遇。但到目前为止,有效地合并构象集合的表征还没有被开发出来。

最近的研究表明,现有的分子描述符不足以表达许多应用。幸运的是,深度学习中的主动学习为小分子的灵活表征学习开辟了一条有前途的道路。

什么是好的分子表征?

好的分子表征应具有什么样的品质?在机器学习中,好的表征法应是会使学习任务更容易,这一概念可通过图2中示例看出。同样的道理也适用于分子,因为识别关键的结构特征对于揭示生物活性和性质关系至关重要:一个好的分子表征可以使后续的学习任务更容易。优秀的分子表征应满足下列条件:

1)表现力:化学空间是巨大的,但单原子对分子结构的扰动可以导致物理化学性质和生物活性的巨大差异。表征既要忠实地捕捉化学空间的丰富性和多样性,又要区分分子之间的细微差别。

2)简约性:大规模实验的成本限制了化学数据集的规模和多样性。为了确保模型能够在噪声中学习重要的模式,对于机器学习任务来说,在输入特征空间中保持简约是至关重要的。

3)稳定性:因为相同的分子输入应该一致地生成相同的输出,所以分子表示必须对原子编号等方面保持不变。

4)可解释性:对于机器学习的科学应用来说,关键是要确保模型的性能源于对相关模式的学习,而不是利用混杂变量、实验噪声或其他可能的人为因素。

JMC | 药物化学中的分子表征学习

图3 机器学习模型性能作为数据集大小的函数的概念说明

图片来源 JMC

为什么是深度学习?为什么是此时?

鉴于过去神经网络在药物发现方面的成功有限,一个重要的问题是,深度学习是否适合小分子药物发现。

人工神经网络和深度学习

人工神经网络(ANNs)是一类计算系统的灵感来自于人类大脑的生物网络。在最简单的情况下,一个浅的、全连通的或前馈网络是一个有向计算图,它由三层组成:输入层、单个隐层和输出层(图4A)。每一层都有数量可变的计算单元,称为神经元,它们对输入数据执行非线性转换。深度神经网络(Deep neural networks),又称深度学习(Deep learning),是指具有多个隐含层的神经网络。简而言之,一个训练过的模型指的是一个神经网络结构,以及连接所有神经元的学习过的权值。

几十年的研究探索了各种各样的架构,每一种都适用于不同的目的。除了标准的前馈网络,由全链层(等同于被称为密集或仿射层),复发,卷积,卷积图架构开发了不同的领域和数据类型(图4)。例如,复发性神经网络(RNNs)、复发长-短-期内存单元(LSTM)、卷积神经网络(CNNs)以及图形神经网络(GNNs)。模块化单元允许深度网络操作广泛的数据和组合数据类型,以提供灵活的学习。

数据可用性的增加、算法的创新和计算硬件的进步推动了最近深度学习的爆炸式发展,大大缩短了训练和评估深度网络的时间,并提高了可伸缩性。

JMC | 药物化学中的分子表征学习

图4 柔性神经网络结构示意图。

图片来源 JMC

神经网络在QSAR和药物发现中的应用

神经网络在QSAR和药物发现方面有着曲折的历史。ANNs在药物化学中的首次应用可以追溯到近50年前,即使用感知器算法对含有二恶唑烷的小分子进行分类。随着机器学习研究的不断进展,ANNs被其他算法取代,比如不太容易过拟合的随机森林和支持向量机。这些算法仍然被广泛使用,并取得了强大的性能,特别是在小数据中(图3)。

2012年,由Kaggle主办的默克分子活性挑战赛再次点燃了人们对药物发现的深度学习的兴趣,参赛者被要求使用预先计算的近5万个分子的分子描述符预测15个相关任务的生物活性。由Dahl等人领导的团队利用多任务深度神经网络赢得了比赛,并以比最新的随机森林模型高出近15%的成绩赢得了比赛。尽管默克公司的后续研究表明,与随机森林模型相比,神经网络的性能略有提高,但这场竞赛使神经网络在药物发现方面再次得到普及。 

JMC | 药物化学中的分子表征学习

图5 特征工程与特征学习以获取重要的相似关系

图片来源 JMC

从特征工程到特征学习

深入学习计算机视觉和自然语言处理模式转变: 以前的方法严重依赖专家的特征工程,而深度神经网络是一种可直接从数据中自动执行的特征学习(图5)。相比之下,卷积神经网络通过学习好的特征提取器,以及基于梯度的优化,自动生成层次结构组合。相反,一种有监督的深度学习方法不需要已有的知识,通过使用原始图像数据和标签(例如,狗、猫、潜水艇),通过例子学习狗的鉴别特征。

为什么深度学习对图像识别如此有效?这些模型学到了什么?深层架构的一个关键方面是表征的层次学习的概念。神经网络学习的最低层相对简单的特性非线性组合成高阶的概念,因为他们通过网络传播(图5)。这个层次组织,与多个中间层次的代表,是深层网络的预测能力的关键,并提供改进的计算复杂度,分享统计力量,增加表现力。

向特征学习的相同转变导致了自然语言处理的显著改善(图5)。虽然计算机视觉和自然语言处理似乎不同于化学信息学,但可以在这些研究领域中找到相似之处(图5)。几十年的化学信息学研究已经产生了专家定义的分子表征,这些表征可以称为特征工程。分子表征可通过深度学习从局部原子环境和子结构分层构建。实际上,常用的循环分子指纹,即扩展连通性指纹(ECFP),有效地对分子的片段袋表示进行编码,与文本的单词袋表示直接并行,并使用相同的技术(如特征散列)创建稀疏的分子指纹。总之,这些相似之处表明表征学习将改善小分子的预测建模状态。

关键的是,小分子药物的发现打破了机器学习的许多技术应用中的标准假设。大多数机器学习算法都假设训练和测试数据是独立的、相同分布的。小分子的优化和设计,必须从特定新的化学空间区域探索结构的变化。该模型必须推广到分布外的实例,才能对临床药物化学家有用。

分子表征学习的机遇

从灵活的输入表征中学习

传统的机器学习需要固定长度的输入,不能处理可变长度和非结构化数据。目前,深度学习的发展主要依靠非结构化和可变的数据类型,这为探索新的有意义的分子表示创造了机会。现有的基于字符串和图形的格式,被设计用来编码分子的完整组成和结合,是深度学习任务很有前途的起点。

学习基于字符串的表示(如SMILEs)已经引起了人们的兴趣,因为它们能将分子结构压缩编码,并已广泛用于化学数据库的存储。SMILEs遵循由正式语法系统组成的人类可解释的语法,允许研究人员直接调整从自然语言处理和神经机器翻译到化学信息学问题的方法和架构。例如,吡啶的SMILES表示是“c1ccncc1”(图6A)。

赛格勒等人在早期报告中,应用一个基于-RNN模型生成集中化学库与抗疟和采用两阶段法抗菌活性(图6),作者最终证明,经过训练的模型可以产生新的和有效的抗菌药物发现分子的重点库。

尽管应用很方便,但SMILES表示在学习上有几个关键的缺陷:1)两个相似的分子可以产生两种截然不同的SMILES表示,因为多个有效但不同的SMILES可以描述同一个分子;2) SMILES很脆弱:单个字符的改变会产生无效的分子;3)大多数分子本质上是非线性的,但它们会把复杂的结构坍缩成单一的线性序列。这些缺陷使得SMILES语法很难使用标准的卷积和循环架构来学习。

此外,一个令人兴奋的新兴方向是使用图形神经网络直接学习分子结构。正如CNNs在规则网格中聚合本地空间信息(图4C)一样,GNNs将这个概念推广到非欧几里得的输入,如网络(图4D)。图学习分为几个步骤(图6B):首先,现有的分子特征直接编码到每个节点表示中,比如原子类型和杂交。在一个GNN的各个层中,节点表示用来自其周围邻居的信息更新,这些信息在一个称为消息传递的框架中传递。这种迭代消息传递和更新的过程允许信息在图中流动,从而为每个节点创建连续而密集的表示。

该算法与ECFP指纹算法紧密对应,从局部环境中提取信息。关键的是,尽管传统的指纹和图形神经网络都利用了专家定义和设计的原子和键特征(例如,原子类型、杂交、部分电荷等),图形神经网络层逐步转换和聚合任意大小的分子图,成为相关的学习向量(即,一个嵌入)。因此,这些网络的信息聚合阶段是专门为任务而进化的,与传统的指纹和描述符有本质区别,后者依赖预定义的手段来聚合化学子结构模式。

在实践中,Duvenaud等人对神经图谱指纹的发展和Kearnes等人对分子图谱回旋的早期报道显示,在水溶性和生物活性任务方面,传统指纹具有较强的性能。随后,一些变化的图形神经网络结构已经被开发用于预测物理化学性质,生物活性和小分子能量。 

JMC | 药物化学中的分子表征学习

图6 深度学习可以从不同的输入类型(如序列和图形)中灵活地学习

图片来源 JMC

通过连续表征学习分子相似性和化学空间

化学信息学的相似性质原理表明,相似的化合物应该具有相似的性质。计算方法如Tanimoto系数(Tc)主要反映了它们所选择的分子表征的相似性,但这些表征的相似性仅作为从分子结构确定函数这一最终目标的相关代理。与活性悬崖对应的匹配分子对从一个极端说明了这一概念:尽管两个分子可能在结构上相似,但活性上的显著差异表明它们在功能上并不相似。在另一个极端,两个具有不同支架的活性分子说明了相反的概念:根据分子指纹,两种分子在结构和拓扑上的相似性较低,但可以认为它们在功能上类似于针对同一蛋白靶点的活性分子。

相比之下,深度神经网络可以自然地学习独特的连续表示,具有更强的表征能力,并可以学习特定任务分子相似性的概念。圆形指纹ECFP算法根据本地原子环境有效地将每个分子编码为一个片段袋,生成惟一的整数标识符,然后将其散列成固定长度的表示。因此,每个片段必然是完全不同的。在另一个极端,对ECFPs的修改,如功能类指纹(FCFPs),使用泛型原子类型来强制类似的组以相同的方式编码。将相似但不完全相同的片段映射到相同的比特必然会降低指纹的表现力,但在数据量低的情况下可以有效地提高性能。

例如,Duvenaud等人报告的神经图指纹提供了ECFP算法的连续泛化,用神经网络的单层代替哈希函数。这种方法允许基于预测任务对每个分子片段进行类似的编码。学习相似性的连续统一体可以提高这些表征的表现力,使分子中的细微差异得以准确地捕捉。

在更广泛的背景下,学习平滑和连续的表示法提供了比改进的相似度度量更好的预测性能。具体来说,深度神经网络学习的化学空间有几个优点:1)离散分子可以自动、数据驱动的方式生成光滑连续的化学空间;2)通过网络学习得到的连续的、分层的表示具有独特性和更强的表现力;3)快速梯度法可用于化学性质的优化。

例如,Gomez-Bombarelli等人的开创性报告通过应用变分自动编码器(图7)网络说明了这些优势。具体来说,自动编码者体系结构由两部分组成:一个编码器网络,它将输入的分子(用SMILES表示)转换为一个降维的化学潜在空间;另一个解码器网络,它将这个潜在空间中的点映射回分子输出。整个自动编码器是训练通过无监督的学习方法,采取一个简单的目标:重建其输入。这种无监督的重建任务允许大量未标记数据,甚至假设的类药物分子学习化学空间的平滑表示。

JMC | 药物化学中的分子表征学习

图7 连续潜在空间优化

图片来源 JMC

利用生成模型学习新分子

逆向分子设计是现代药物发现中的一个长期挑战。标准QSAR模型将分子结构映射到活性或性质上,而反向QSAR模型则将此概念反过来,转而寻求生成满足最佳性质或活性的新分子结构。现如今,深度学习中的生成模型现在直接解决了逆向设计问题,为新药设计带来了新的机会。

如上文所述,Gomez-Bombarelli等人使用变分自编码器所描述的方法构成了一种生成模型(图7)。生成过程的关键与任何自编码器的主要目标相同:重构其输入。关键的是,解码过程学习通过重建任务是一个直接解决逆分子设计。为了利用这个化学空间来寻找具有特定性质的分子,可以通过与预测网络的联合训练来调整潜在空间,从而可对空间的特定区域进行采样并生成新的分子。

为新药设计生成重点库的能力激发了许多方法,包括各种自动编码器和循环神经网络架构。然而,输入表征仍然是这些生成模型的一个关键方面。到目前为止,大多数生成模型主要关注于输入和生成输出的SMILES表示。为了达到这个目的,新架构的开发和训练集的增加极大地提高了结果。例如,Popova等人最近的一项研究使用堆叠-RNNs生成了数百万个结构有效性为95%的分子。

尽管这些模型主要是在SMILES字符串上运行,但直接产生分子图的模型仍然具有吸引力。尽管编码图很简单,但图的生成却具有更大的挑战性。但众多研究表明,这些生成模型可以作为药物设计和发现的假设生成器。

深层生成模型开始直接解决小分子药物设计的长期挑战。具体来说,必须考虑产生分子的新颖性和可获得性。如果生成模型要指导药物设计,它们不能仅仅产生训练数据集的琐碎扩展。生成模型有效地插值了训练数据的化学空间,其潜在空间能否有效地外推到化学结构空间的新区域还不清楚。此外,当前的生成模式在新颖性和可访问性之间摇摆不定。

基于以上考虑,该领域仍存在两个关键问题:1)生成模型能否实际应用于前瞻性发现? 2)如果检验他们的预测是困难的,我们如何评价他们的成功?最近的报告已经开始通过综合和实验前瞻性地评估生成模型。

研究者必须考虑生成模型的实用性,而不是依赖于快速筛选大型预先列举的化学文库的替代方法。例如,Stokes等人最近采用了一种发现新抗生素的虚拟筛选方法。从药物再利用文库中对预测抗生素进行的前瞻性试验确定了一种新的广谱抗生素——哈利辛。此外,ZINC15数据库的虚拟筛选产生了有希望的结果。这项工作说明了深度学习在筛选工作流程中的有效性,它只考虑可合成和有效的分子。 

JMC | 药物化学中的分子表征学习

图8 在不同任务中学习共享表征的方法

图片来源 JMC

利用多任务和迁移学习进行共享表征学习

亲和力和理化性质的多维优化是小分子治疗发现的核心挑战。小分子先导物必须同时进行多目标优化:1)保持其对预定目标的高亲和力,2)改善其吸附、分布、代谢和排泄(ADME)特性所需要的物理化学特性,3)保持对非期望的脱靶物的选择性。为此,多任务学习和迁移学习等机器学习概念在药物研究中具有重要意义,这些方法利用从一个预测任务中获得的知识来促进另一个预测任务,提供更好的预测性能,或者需要更少的例子进行训练。

与单任务学习不同,多任务学习包括明确考虑两次或更多任务的模型,比如同时预测整个分子目标图谱(图8A),自然反映了药物设计的多药物优化。一般来说,多任务网络共享内部层次表示,可以利用任务之间的相似性和细微差别,从而提高学习效率和模型性能。在药物化学的背景下,在一个蛋白质靶点上收集的生物活性数据常常能告诉我们另一个靶点。

众多实验证明,多任务学习策略可以提高模型的性能和鲁棒性。例如, Dahl等人为默克分子活性挑战赛开发的多任务模型,就比单目标训练的模型表现更好。Ramsundar等人证明,多任务网络可以同时应用于数百个不同的蛋白质靶点,性能略有提高,等等。

尽管多任务学习利用共享的底层层次表征,表示也可以在任务之间转移(图8B)。在迁移学习的情况下,一个在某项任务上接受过训练的完全训练的网络随后可被应用到另一项任务上。

将现有的和历史上的化学数据转移到有有限例子的新数据集,同样会使药物发现成为可能。理想的情况下,在一个足够庞大和多样化的化学数据集上预先训练一个大型神经网络模型,可以弥补在一个新的药物化学运动中观察到的少量数据。然而,相比之下,药物发现跨越了更多的潜在化学和物理过程的多样性,数据集运行在一个小得多的规模。早期的报告表明,在监督下对类似的生物活性和性质预测任务进行预训练可以提供适度的帮助和改进。

最近的试验中,Hu和Liu等人评估了图神经网络在生物和化学预测任务中的迁移学习策略。然而,研究发现,训练任务的选择和图形神经网络结构对性能的影响很大。他们的实验证明了两个例子,提高的表现(正迁移)和下降的表现(负迁移)取决于训练设置。这些观察强调了未来对迁移学习方法进行调查的机会。

JMC | 药物化学中的分子表征学习

图9 深度神经网络的特征可解释性

图片来源 JMC

深度神经网络的特征可解释性

深度神经网络能够有效地从数据中自动学习模式,但自动学习并不能保证有意义的学习。为了生成可操作的新科学知识,而不是简单地拟合数据,深度学习模型必须学习反映潜在物理过程的真正显著的模式。

长期以来,神经网络以牺牲可解释性来换取性能,但模型可解释性的初步方法现在揭示了神经网络的内部决策过程,显示出哪些特征对最终的预测是显著的。最近,基于梯度的显著性映射和基于注意力的模型突出了对计算机视觉和自然语言处理性能最重要的图像和文本中的关键字区域。将这个工具箱应用到药物设计中,可以洞察哪些分子特征影响预测性能,从而推动更健壮和可推广的模型的开发。

一些早期的报告说明了这些工具在理解属性预测任务训练的模型方面的效用(图9)。例如,Mayr等人手动检查了一个训练过的网络的隐藏单元,以揭示导致分子毒性的子结构。Duvenaud等人分析了基于水溶性训练的图形神经网络(图9A,左)。他们的发现与化学直觉一致:模型认为含有羟基的基序对溶解度最重要,而扩展的多芳香族体系最能预测不溶解度(图9A,右)。再如,Chen等人开发了一种深度强化学习方法来生成小分子生物活性预测的明确原理。用于预测人类ether-a-go-go相关基因(hERG)抑制剂的模型恰当地识别出亲脂性、碱性叔胺作为关键的结构基序,这与专家的直觉一致(图9B)。重要的是,在所有情况下,网络学习这些结构基序没有专家编码的知识,说明了可解释性方法对小分子的适用性。对这些研究的一个重要警示是,所显示的例子是验证性的和非详尽的。在缺乏更严格和系统的测试的情况下,这些解释可能受制于确认性偏见。

没有一个单独的测试可以保证提供有用的答案。相反,可解释性工具允许研究者用深思熟虑的实验设计来审问模型。假设驱动的方法可以测试模型是否了解了与潜在因果过程相关的内容,并标记出意外模式识别的实例、学习虚假的相关性和数据集偏差。

理解模型学习的内容不仅提高了模型的健壮性,而且为药物开发中的假设生成开辟了道路。例如,将可解释的模型整合到发现设置中,可以增强药物化学家对击打先导优化的决策过程:探索结合活性的模型可能提醒化学家保存活性最突出的核心基序,并指导化学家探索改善ADME性能的扰动。这些工具提供了指导优化活动的机会,而不是将这些深度学习模型视为药物化学家的替代品。可解释模型可以提取出在经验数据集中编码的隐式模式到独立的结构-活动假设中,可以被明确地测试。

深度学习的局限性

要将深度学习作为一种实用的方法集成到药物发现管道中,我们必须解决以下问题:

1)数据和数据集注意事项:与其他机器学习算法相比,深度神经网络需要大量的数据来确保模型的通用性和防止过拟合。

2)训练成本:与已经建立的分子特性化和指纹识别方法(如MACCS键和ECFP)相比,大规模计算速度更快,以上讨论的大多数学习方法需要大量时间的训练和优化步骤。

3)丰富的学习经验和专业知识:深度学习的灵活性要求仔细的数据集管理、模型训练和评估程序,以确保模型的泛化。

4)再现性: 深度学习模型是通过随机初始化和优化来训练的,并且可以对它们的设置非常敏感。

未来方向、展望和结论

近年来,深度学习研究和创新出现了爆炸式增长。尽管人们对药物研发抱有很高的期望,但深度学习技术本身并不是万能的。相反,这些方法在解决小分子预测模型的具体挑战方面有价值,在集成到实际发现管道之前需要进一步的开发。

展望未来,捕获复杂系统动力学的分子表征将变得越来越重要。忠实编码三维空间关系、构象动力学和动力学路径的表征将为未来的预测任务奠定坚实的基础。通过考虑从原子到蛋白质的复杂物理系统,深度学习方法将推动新的假设和实验程序。总的来说,在小分子创新中深度学习的前景是光明的。

参考文献

Chuang, K. V., Gunsalus, L., & Keiser, M. J. (2020). Learning Molecular Representations for Medicinal Chemistry. Journal of Medicinal Chemistry. DOI:10.1021/acs.jmedchem.0c00385