JMC | 资源有限的小型药企如何利用计算方法加速药物发现

JMC | 资源有限的小型药企如何利用计算方法加速药物发现

引言

剑桥/牛津大学与伦敦大学研究者概述了计算方法如何在资源更有限的情况下帮助小型药企推进药物发现,并根据他们的经验,分享这些方法的最佳实践。

背景介绍

政府和慈善机构对学术研究的资助通过阐明疾病生物学和降低风险靶点对药物发现有重大影响。越来越多的对新药的学术贡献是通过致力于将基础研究转化为概念验证的专门的学术药物发现机构做出的。与此同时,越来越多的新药来自小型生物技术公司,而不是大型制药公司。

预测建模和信息学是当今药物发现的基石。计算方法的影响可以从药物发现项目的最初构想一直到临床试验。数据挖掘和分析方法可以帮助更好地提供信息,并大大加快靶点评估的过程。虚拟筛选(VS)是一种成熟的计算方法,用于找到选定的蛋白质靶点的命中化合物。对接、QSAR分析和匹配的分子对(MMP)支持药物化学程序将命中化合物转化为先导物。计算工具中最近增加的内容包括大数据分析和人工智能方法(通常以深度神经网络的形式)。总之,计算方法在候选药物和批准药物的发现中发挥着重要作用。

学术药物研发中心和较小的生物技术公司往往不具备大型制药公司的全部能力,这对可访问的工具和数据设置了一定的限制。本文中,来自剑桥大学,牛津大学与伦敦大学的研究者概述了在资源有限的药物发现组织的背景下,计算方法影响药物发现的挑战和机遇。研究者希望这可以用来说明这些方法在药物发现领域的价值,也可以帮助将这些方法介绍给那些好奇他们的组织能从计算方法中得到什么的非该领域专家的学者。

计算方法对靶点识别和验证的影响

大多数药物研发计划的第一步是确定并尽可能验证一个合适的靶点,而信息学可以被用来筛选大量的数据来实现这一目标。然而,选择正确的靶点开始药物研发项目从来都不是一件容易的事。现在可用的大量信息有可能使这一决定更加便捷,这一观点的目的不是提供正确的方法来选择一个成功的药物靶点,而是强调计算化学可以做出的贡献,以及计算科学家将在这一努力中面临的挑战。

研究人员可获得的大量、多样的数据使目标选择和验证成为一门学科。数据包括CRISPR-Cas9筛选、蛋白表达谱、生物标记、多组学研究和患者数据;需要在不同的度量、本体和约定之间切换,以提取可用于推断相关疾病的信息。为了帮助完成这一任务,开发了大量的工具(参见表1)。这里,研究者只关注少数特别容易访问的工具,它们提供了用户友好的界面和对各种数据源的访问,诸如Open-Targets、UniProt和ChEMBL(表1)等项目分别为疾病关联、蛋白注释和潜在配体等领域的研究提供了非常有用的起点。这些工具只需要很少的计算专业知识即可操作,并且输出参数通常都有很好的文档记录。通常,这些门户将用于获取潜在目标的知识,并构建可用信息的数量和类型。阅读链接到门户信息的文献有助于进一步验证或推翻目标假设。虽然这种方法有它的优点,但当需要评估来自全基因组关联研究或多组学分析的数百个潜在目标的有效性或可处理性时,这种方法就不合适了。在这种情况下,信息学可以在以自动化和标准化的方式整合所有可用资源中发挥作用。

JMC | 资源有限的小型药企如何利用计算方法加速药物发现

表1 用于挖掘复合活性数据和/或目标疾病链接的数据库

无论是源于基因筛选还是对特定蛋白质家族的兴趣,要研究的潜在蛋白质靶点的清单可能都会很长。对于所有这些目标,需要从多个源提取和组合数据。在项目的这个阶段,为了处理可能以不同格式出现的信息,诸如脚本(如Python或R)和数据库提取(如SQL)等技术技能是非常重要的。公开可用的数据通常以数据库、CSV文件的形式分发,或者以脚本语言直接访问的API的形式分发。除了技术技能之外,理解和批判性地评估所收集数据的质量和相关性的能力也是必不可少的。这在较小的环境中常常是一个挑战,因为这些领域的专家通常微乎其微。因此,需要做出重大努力来解释和分析有关靶点的可用信息的广度,并以可操作的方式来总结这些信息。数据的多样性使得为了构建靶点选择的度量标准而聚合和规范化数据变得困难。另一个挑战是获得的数据的稀疏性。例如,如果可用的数据源之间几乎没有重叠,如何比较两个目标?试图填补这些空白的预测模型可以提供一个解决方案,但是它们的应用通常需要专门的知识。此外,信息源的倍增使得保持所有内容的更新更加困难,因为它需要跟踪并返回每个源来检查新的信息。

实践中的靶点选择 

当寻找单个靶点的信息时,Open-Targets initiative在展示和提供对单个地方不同数据源的方便访问方面做得非常出色。鉴于现有数据的传播和碎片化,它突出了直接比较不同目标的挑战。在研究者的研究单位,研究者构建了一个工具TargetDB (https://github.com/sdecesco/targetDB)来帮助完成这项任务。该项目的意图是开发一种工具,它可以将有关目标的标准化信息收集到单个文件中,并可用于根据用户定义的分数对目标列表进行优先排序。从上述资源和其他资源中收集数据,并进行一系列的数据分析,以提取最相关的信息,进行目标可操作性评估;图1a提供了该过程的示意图。近年来,ML(机器学习)算法普遍应用于靶标识别和药物发现。需要注意的是,这些算法需要精心策划、统一和标准化的数据来最大化其预测能力。在作者的研究机构中,TargetDB被用于在机器学习(ML)模型的帮助下,从整个蛋白质家族中快速排序和选择目标,该模型将目标分为三个可处理类别(可处理、具有挑战性、难以处理)(图1b)。

JMC | 资源有限的小型药企如何利用计算方法加速药物发现

图1 a) TargetDB如何在一系列数据库中搜索信息并编译结果以生成输出的示意图;b)使用TargetDB对E3连接酶家族进行分析的示例,以评估目标的潜在易处理性和疾病相关性

计算方法对hits发现的影响

一旦确定了合适的靶点或表型,下一步就是识别能够结合或修饰所选靶点/表型的化合物,作为药物化学的起点。

高通量筛选法 

高通量筛选(HTS)长期以来一直是药物发现的首选方法。然而,由于成本高,这种方法已经超出了许多学术实验室和较小的生物技术。计算方法可以帮助使筛选过程更易于管理,无论是通过虚拟筛选,还是通过ML-驱动迭代筛选和合理库设计的应用。

在迭代筛选中,筛选化合物库的一个子集,该筛选的结果用于提示下一阶段的筛选。研究表明,这种方法可以检索到大多数活性化合物,而筛选不到总筛选库的一半。通常,ML方法用于预测要筛选的下一组化合物。虽然这种方法引入了多轮化合物筛选,使筛选物流更加复杂,但减少的化合物筛选数量可以弥补这一点,特别是对于复杂和昂贵的筛选。随着自动配药等方法变得越来越普遍,这种交换将变得越来越有吸引力。此外,这些方法可以用于迭代地从供应商库中选择化合物,只购买感兴趣的化合物。

对于许多较小的研究机构来说,维持一个大的HTS库所涉及的工作和成本是令人望而却步的,人们可能会寻求维持一个较小的库或者为每个实验购买一套筛选准备板。无论哪种情况,重要的是不要包括那些不太可能形成药物化学生产起点的化合物。这就需要一个设计合理的筛选库。库的设计可以针对一个特定的靶标,通过丰富针对该靶标的相关化学类型,也可以针对多个不同靶标筛选库。常见的任务包括过滤反应和干扰组(如PAINS)以及控制关键分子特性和化学多样性。通常,这种性质过滤的灵感来自于类先导物的概念,寻找经过开发后仍将停留在类药物的空间内的化合物。适用于这些性质的切断装置已经在其他地方广泛地讨论过。有一些免费的工具,如RDKit和KNIME,可以用于复合过滤(表2)。PAINS和反应活性组的子结构过滤器可以在KNIME/RDKit中下载或创建。ChemAxon还为学者提供了免费的工具,包括logD和pKa计算器(KNIME和RDKit中没有)。后两个特性是计算CNS MPO评分所必需的,该评分优先考虑有可能穿透血脑屏障的配体,因此对CNS项目来说是一个重要的过滤器。

对于HTS命中化合物,效力通常随分子量增加,但最强的分子可能不是最容易控制的。一般来说,从较小的分子开始是可取的。研究发现配体效率指标,如配体效率(LE)和亲脂配体效率(LLE)是有用的优先指标。

虚拟筛选(VS)

虚拟筛选( VS)是指使用计算工具来选择化合物进行生物活性测定。对于计算化学家来说,这通常是一个关键的任务。术语VS通常指的是大型化合物数据库的对接,但也有一些替代技术,如形状和药效团搜索,也可以用于虚拟化合物数据库。VS选择的一组化合物通常比进行高通量筛选(HTS)要便宜得多,因为化合物成本和筛选的成本都较低。同时,它也比HTS速度快得多。作者的经验是VS的成本是HTS的十分之一,而花费的时间只有HTS的一半。因此,学术和小型生物技术药物发现团队应该考虑VS是否可作为他们的项目的一种选择。

JMC | 资源有限的小型药企如何利用计算方法加速药物发现

表2 常用软件的关键计算药物发现任务

VS的合适靶点 

许多药物发现计划的目标没有很好的探索,没有晶体结构,和/或没有许多甚至任何已知的配体。在这些情况下VS是具有挑战性的,但通常仍然有可能成功地进行VS活动。关键是在决定方案之前找到所有关于靶点结构和配体的可用信息。蛋白结构信息可以在PDB中找到(表1),如果PDB中没有靶点结构,以PDB为靶点数据库,在UniProt中以靶点序列进行BLAST搜索(表1),可能会发现具有晶体结构的同源蛋白。任何在相关结构域具有25%同源性的蛋白,例如ATP-结合结构域或蛋白酶结构域,都可能产生一个有用的同源模型。较低的序列同源性并不一定会降低VS的成功几率,但序列一致性与VS富集之间存在微弱的相关性。一个可用的蛋白质结构是VS的一个很好的开始,但是蛋白质结构并不是都一样有用。具有类药物配体的晶体结构比具有天然配体或底物的结构成功的机会更大,因为最优的富集条件通常是结合配体与待对接化合物相似的蛋白质结构。强有力的配体有更高成功的可能性,因为他们通常有更多和更强的相互作用,并可以使用这些信息来指导药物设计,因为错误的口袋可能是有针对性的,或结构蛋白的变化可能发生在结合 时。良好的分辨率(< 3.5 Å),明确的活性位点和在电子密度中完全可见的残留物,也是成功可能性的有用指标。表3总结了VS起点所需特性的层次结构。从PDBe中检索电子密度图(表1)总是值得的,以检查配体和口袋残留物的定义如何。该信息可用于调整药效团约束的大小,或允许对接协议中某些残留的灵活性。

JMC | 资源有限的小型药企如何利用计算方法加速药物发现

表3 VS的特征,根据成功的可能性排序的起点。颜色梯度强调了不同情况下成功的可能性,绿色表示可能性高,红色表示可能性低

数据库如ChEMBL, Probes&Drugs,和PubChem(表1)可以用来寻找已知配体。使用SureChEMBL可以为配体挖掘专利(表1)。如果已知蛋白靶标的配体,甚至单个配体,可以尝试基于配体形状和药效团特征的VS。这些方法不需要三维蛋白质结构就可以使用。基于配体的有许多商业和学术软件包可用,作者已经成功地使用了ROCS、Blaze、MOE和Phase进行筛选(表2)。基于配体的3D药效团方法假设已知配体的所有特征都对结合很重要(尽管在某些包中可以手动重写)。配体只有有药效团特征才有所需的效力,因此最好作为查询。构象的灵活性增加了基于配体的3D药效团相对于更严格的查询分子的复杂性,因此应该尽可能选择更灵活的替代方案。然而,并不是所有基于配体的筛选工具都对查询构象敏感。如果有多个配体可用,叠合可以表明关键的结合特征和可能的口袋形状。对于基于结构和基于配体的筛选,无活性配体的数据也有助于测试VS协议是否具有预测性,并能区分活性和非活性。

选择要筛选的数据库 

决定筛选哪个数据库是VS活动成功的一个重要因素。为了对药物研发项目产生及时的影响,VS方案所选择的化合物必须是负担得起的,在合理的时间框架内交付,并采用合适的格式。当考虑VS的成本时,重要的是考虑应该购买多少化合物。三到四个小的活性物簇将是一个虚拟筛选的好结果,因为这允许一些摩擦,由于平坦的SAR,棘手的化学,或ADME属性不能优化而失去效能。这些都是研究者停止化学筛选的原因。对于我们VS的成功案例,在ADP Glo试验中,使用IC50 < 10 μM作为截断点,命中率为0.5- 1.5%。很难知道这是否具有代表性,因为文献中报道的命中率使用了广泛的界限,而且不同的目标成功率也不同。此外,许多报告较高命中率的研究都是回顾性研究,使用已知具有活性的数据库。

每个筛选化合物的成本大约为2美元到120美元,具体取决于供应商、所需数量和订单中化合物的数量。因为当订购的化合物数量超过阈值时,每个化合物的成本通常会下降,所以当从一个供应商订购化合物时,有限的预算往往会进一步增加。使用单一供应商的额外优势是,订购和处理物理化合物更容易,运输成本更低。因此建议筛选单一来源源供应商数据库(表4)。表4显示了一些化合物供应商和数据库,这个列表绝不是详尽的,但包含了有经验的单一来源供应商,当研究者询问超过1000个化合物的订单时,每个化合物的成本是10美元。

JMC | 资源有限的小型药企如何利用计算方法加速药物发现

表4单一来源供应商的化合物数据库

除了成本之外,供应商库的内容也是一个需要考虑的重要因素。一些供应商可能只是比其他供应商有更多感兴趣的化学类型的例子。所以,如果可以详细地定义要购买的化合物的性质空间和特征,挖掘非常大的化合物数据库来寻找非常符合要求的分子可能是值得的。研究者最近从111个购买的化合物中获得了5%(IC5 < 10 μM)的命中率,这些化合物在生物物理筛选上测试了一个目标,而这个目标在之前的HTS中没有命中任何目标。这111个化合物是根据一种新的化学类型来选择的,并且适合一种精细的对接模型来区分大约100个内部测试的活性和非活性。使用BioSolveIT的infiniSee软件(表2),从Enamine REAL数据库(表4)中选择了50,000个与已知活性有某种相似性的分子进行对接。

数据库选择的最后一个考虑也许是化合物库是否可管理,一个大约一百万虚拟化合物的数据库可以很容易地在一个多核的工作站上处理,对接一个这样大小的化合物库可能需要一个周末。除了数据库的大小,还需要大量时间来建立计算基础设施和工作流。

为VS准备数据库和搜索查询 

为了确保只筛选一个化学运动合适的起始点,上面讨论的筛选库的合理设计的烦恼、反应基团和属性过滤器应该在VS之前应用。对接和大多数基于配体的筛选应用程序需要输入配体以所有可能的形式表示,包括电荷态、互变异构体和立体异构体。许多商业和自由软件包都有实现这一点的工具(参见表2),但是它们交付的结果和花费的时间各不相同。MolConvert从ChemAxon生成电荷、异构体和立体异构体,然后在RDKit中进行几何优化,在没有绑定其他应用程序使用的软件许可的情况下工作得非常好。

不仅是数据库,而且是搜索查询,无论是蛋白质活性位点、药效团还是配体都需要精心准备。蛋白质需要被正确地带电和质子化,以便发现相关的氢键和电荷相互作用。需要对水分子进行评估,并决定是保留还是去除它们。如果这是不清楚的,或者侧链或环是灵活的,最好的方法可能是使用多个蛋白质模型的虚拟筛选。如果将配体用作3D查询,则需要具有可能的构象。在没有绑定模型的情况下,通常使用能量最低的构象异构体,但Kirchmair等人表明,在使用ROCS时,查询构象不会影响性能。低能构象可以通过构象分析发现,然后通过半经验或QM方法优化,并通过在剑桥晶体学数据库(Conquest,表2)中观察相似的配体来验证。详细的构象分析对从多个配体产生药效团也非常有用。排除不太可能发生的构象,如顺式酰胺、轴向取代基环等,可以减少可能的药效团数量并提高成功的可能性。所有筛选查询都应该首先进行测试,看看它们是否检索到已知的活性物,然后测试它们区分活性和非活性的能力,如果有足够的活性数据可用的话。

选择对接软件 

有许多不同的VS软件包可供使用。表2列出了研究者已经成功使用的工具,但是还有许多其他好的软件工具可用。对于对接工具,已经有几个竞赛,在这些竞赛中,使用一系列不同策略的小组已经在预测晶体结构尚未公布的配体的结合姿态和排列方面展开了正面交锋。比较成功的研究也已经发表,例如Su等人。在选择停靠包和策略时,这些都是有用的资源。所有的停靠包都有不同的优势,所以在选择时要考虑目标和库的详细信息。例如,开源对接程序不受许可证的限制,因此非常适合在集成CPUs上运行。众多研究者喜欢GOLD在水分子可能与配体形成关键相互作用的场景中,因为它可以在筛选过程中开关结合位点的水分子。然而,作者更喜欢Glide,因为它能计算配体应变能,这是非常有用的评估结合模式。Yuriev等人写了一篇很好的评论,讨论了哪些对接工具可以处理灵活的蛋白质、溶剂化和碎片等。

对接包通常具有多个评分功能,因此对接协议的验证应该包括评估最佳评分功能。许多VS包也有一个重新评分模式,因此,可以使用停靠工具中没有的评分功能重新评分。多个评分函数的结果可以以各种方式组合在一起,以提高丰富性。最近的一个例子是Ericksen等人的一份报告,他们使用ML来改进传统的共识评分模型。基于结构的方法和基于配体方法的结合也取得了成功。基于配体的方法可以提供一个快速的预过滤,以减少提交对接的化合物的数量,这通常是较慢的。另外,基于配体的方法可以用作对接后过滤器,以确保所有对接命中都与受体有必要的相互作用。后一种方法在作者看来是非常成功的,在增加基于配体方法的富集方面,它们本身也被证明是非常成功的。

选择购买和测试的化合物 

VS的最后计算步骤是决定购买哪种化合物。这是一个重要的步骤,它可能会对VS的成功产生更大的影响,例如使用哪个打分函数。打分函数对化合物的排序很差,所以所有得分合理的化合物(如与已知配体相似的化合物)都应该考虑购买。打分函数的一个众所周知的问题是得分随着分子的大小而增加。这可能导致更吸引人的、更小的化合物被忽略。例如,使用虚拟配体效率分数,将分数除以重原子的数量,或者将命中化合物列表分成分子量层,然后从中选出一组,就可以解决这个问题。这些策略应与聚类步骤相结合,以确保多样性。但是,从每个聚类中选择一些示例是有用的,因为它允许出现一些SAR。如果集合太多样化,就很难对工作进行优先排序。对于这种类型的集群,Data Warrior是一个有用的工具,因为它通过Tanimoto相似性进行聚类。0.7-0.8的相似度往往会产生真正相似的分子簇,而均值聚类和层次聚类算法更难实现。重要的是,从最初筛选中识别出的任何命中化合物物都要作为固体物重新供应或在内部重新合成,以对化合物进行适当的质量控制,然后验证其活性。如上所述,作者成功地开展了一系列针对不同目标的VS活动。图2显示了部署在这样一个项目中的典型VS漏斗。

JMC | 资源有限的小型药企如何利用计算方法加速药物发现

图2 VS漏斗在内部成功使用的例子

计算方法对命中化合物优化阶段的影响

一旦确定了合适的起始点,下一步的任务就是将其开发成具有良好靶向效力和其他有利特性的先导化合物。在这个阶段,计算方法也可以加快过程,提高最终先导化合物的质量。对ADME性质的对接研究和预测有助于指导设计过程,并能更快地得到更好的分子。研究者通常在内部使用这些方法,图3显示了在这些方法的帮助下优化的Notum抑制剂发现项目的一个系列的最终化合物。

JMC | 资源有限的小型药企如何利用计算方法加速药物发现

图3 使用Glide(表2)和各种性能预测被用于指导一系列呋喃嘧啶酰胺作为Notum抑制剂的开发,这些抑制剂基于作为非中枢神经系统的穿透型先导化合物

在某些情况下,更准确,也更强烈计算结合能力的方法,如自由能微扰(FEP)或MM-GBSA/ MM-PBSA,已被证明与测量亲和力提供更好的相关性,因此具有更好的复合优化的基础。然而,这些方法在有限的预算下不是很容易获得。根据作者的经验,它们需要昂贵的许可证、大量的计算时间,并且需要使用大量数据进行校准。而且,它们的适用范围往往很小。结合为该系列建立的构效关系,基于结构的优化可以成为快速生成更好化合物的强大工具。

QSAR模型 

定量构效关系(QSAR)和定量构性关系(QSPR)模型长期以来被用于化合物设计。这些模型通常使用ML方法构造,并使用分子指纹或一组分子描述符来描述输入分子。QSAR模型可用于优先考虑哪些分子最有可能满足设计标准,并能跨越多个端点,包括基本分子特性、生物活性和代谢稳定性。使用这些方法的一个挑战是它们需要数据来建立模型,并且在项目开始时可能没有足够的可用数据来构建模型。对于成功的QSAR建模,需要正反两个示例。对于已经研究过类似蛋白质的家族中的靶点,也有机会利用这些相关靶点的信息来为手头的靶点提供信息。QSAR模型可以作为软件包的一部分进行预先训练(例如StarDrop中的ADME模型),也可以在内部构建并根据可用数据进行训练。像R或Python中的scikit-learn这样的开放包通常用于构建ML模型,一些商业软件包也提供了这个特性。

最近,在QSAR应用中使用深度神经网络的兴趣越来越大,在许多情况下,这些方法比传统方法表现出更好的性能。然而,这些方法通常在计算上非常昂贵,而且与其他方法相比,许多任务的收益并不大。

重要的是,QSAR模型通常不打算取代实验测定法,而是在合成前选择更有可能具有良好性能的化合物,从而减少所需的设计周期。研究表明,纳入QSAR预测可以提高项目中化合物的整体质量。

分子对匹配 提高ADME-PK性能是优化先导化合物的一个重要方面。如上所述,QSAR模型可用于ADME-PK建模,但另一种流行的技术是使用匹配分子对(MMP)。这种方法依赖于识别一组非常相似的化合物对,通常只有一种化学变化不同,与所调查的性质相关的数据。一旦建立了这种转换的数据库,就可以通过观察数据库中分子相应变化的性质的平均变化来评估先导分子的潜在变化。这种技术的优点之一是预测很容易解释,并且可以回顾预测背后的示例。

虽然MMP对任何性质都是可行的,但它需要大量的数据来给出可靠的估计,因此最适合在项目之间转移的性质。MMP在预测微粒体稳定性、外排和细胞色素P450抑制变化方面特别有用,这些变化通常依赖于亚结构,因此很难用QSAR方法进行预测。ChEMBL是提取间隙、渗透率和其他ADME数据的极好来源,这些数据可用于构建MMP。有几种软件可供选择来构建匹配的分子对(表2)。

量子力学(QM)计算 

QM计算在命中化合物优化得到先导化合物阶段也非常有用。它们可以用来鉴定(假定的)生物活性构象的种类,并发展假说来缓解这种情况。例如,Kuhn等人利用Guassian98成功地应用QM方法缓解了两个杂环之间的扭转角应变,而Heightman等人利用基于QM的单点和最小能量计算Q-Chem优化了其配体密切接触的两个区域之间的相互作用。除了用于更精确的pKa预测的QM软件包Jaguar之外,作者还使用开源的QM软件包ORCA来计算丁腈和半胱氨酸之间形成硫代酰共价键反应的活化能,如Cavalli等人所示。

计算方法对先导化合物开发的影响

药物发现过程进行得越深入,可用于建立预测模型的相关设计阶段的数据就越少。例如,虽然可以很容易地获得大量基于细胞的数据,但在动物模型中测试的化合物的数量将大大减少。在研究者的设置中,这是数千和少数数据点之间的差异。一般来说,这意味着预测建模在项目的后期阶段发挥的作用较小,但是在某些领域计算模型仍然可以发挥作用。使用计算模型对一些脱靶和毒性机制进行常规评估。可能最常见的预测脱靶活性是hERG,它可以获得高质量的模型。此外,可用计算方法可靠地评估致癌性。计算方法在药物发现的末期也有用的另一个领域是代谢物和代谢稳定性的预测。对于这两个任务,商业和开放的解决方案都是可用的,也许最突出的是Lhasa有限公司提供的各种工具。重要的是,当使用基于web的服务进行预测时,不建议披露专有信息,因为大多数服务不保证上载到其服务器的数据的机密性。

挑战与机遇

数据正在成为现代药物发现的关键之一。这给通常没有大量内部数据的小型机构带来了挑战。然而,数据策略的第一步是利用内部可用的任何数据。因此,建立严格的方法来存储以可搜索和适合后续分析的格式生成的数据是很重要的。商业数据管理系统,如Dotmatics和协作性药物发现库,是捕获从药物发现项目生成的数据范围的有效方法。这些系统也为组织提供了未来保护,防止员工离职时数据丢失。数据管理系统比计算建模工具要昂贵得多。即使在利用内部产生的所有数据时,大多数较小的机构会发现总体上缺乏数据来建立模型。缓解这一问题的关键是大量的公开数据库。

选择合适的软件是另一个需要仔细考虑的关键任务。实际情况是,软件可能会带来巨大的成本,而大型软件集合也会增加复杂性。因此,任何购买都应该具有特定的功能。有些供应商在一个包中提供所有功能,而另一些则销售单独的模块,因此在购买之前请确认任何包是否包含您需要的功能。

还有许多网络工具可用来完成一系列的计算化学任务,例如,pKa预测器,P450代谢位点预测器等。在使用这些工具时要考虑的一个重要问题是您的数据和IP是否安全。

除了软件之外,还需要一些硬件。然而,大多数任务可以使用标准硬件完成。一个好的设置是一个带有GPU的高端工作站,再加上一个用于许可和托管web应用程序的简单服务器。

对于小范围的计算化学家来说,一个巨大的挑战是需要广泛的技能。大型机构可能拥有独立的生物信息学、化学信息学、建模和IT专家,而在小型机构中,一个人可能必须涵盖所有这些学科。幸运的是,现在网上有很多培训资源,可以帮助你获得所需的技能。许多软件供应商,包括CCG、Cresset、Optibrium和Schrodinger组织免费或低成本的网络研讨会、研讨会和用户组会议来培训他们的用户。还可以通过与更广泛的建模社区的联网获得重要的知识。

展望与结论

计算方法在整个药物发现和开发过程中发挥着重要作用,从找到正确的靶点到对临床数据进行统计分析。虽然在药物发现领域小药企可能很难实施所有的最先进的技术,关键是可以用有限的资源覆盖。在整个展望中,研究者描述了这些方法的最佳实践,以及它们如何适用于药物发现。研究者的经验是,拥有一个计算机科学家的讨论不仅使各种计算药物发现方法得以运用,同时简化整个组织的数据处理和增加利用公共数据的能力。总之,研究者预计计算方法将在现代药物发现中发挥越来越重要的作用。对于许多学术团体和小型生物技术公司来说,从计算技术和内部和公开数据中获得最大价值的方法将是成功的关键决定因素。

参考文献:

Henriëtte Willems, Stephane De Cesco, and Fredrik Svensson. Computational Chemistry on a Budget: Supporting Drug Discovery with Limited Resources. Journal of Medicinal Chemistry. DOI: 10.1021/acs.jmedchem.9b02126