中大唯信·唯信计算

引言

新药研发是一个漫长而昂贵的过程。在过去几十年间，高通量筛选、药物基因组学等技术不仅加速了药物开发，而且为候选药物生成了大量数据，将现代药物带入了“大数据时代”。药物发现领域的大数据具有“十个V”特征：数量（volume）、速度（velocity）、品种（variety）、准确性（veracity）、有效性（validity）、词汇（vocabulary）、场合（venue）、可视化（visualization）、波动性（volatility）以及价值（value），可用多种分类方法来评估这些数据的当前情况。机器学习（ML）方法是药物开发早期有效的虚拟筛选手段，考虑到大数据的十v特征，开发系统地预测药物功效和不良反应的大量、多维和稀疏数据源的新颖方法显得十分必要。本文重点介绍了药物开发领域可用的大数据资源及常用机器学习技术。

药物发现领域用到的大数据

基于数据库在药物发现不同阶段的应用和相关性，将其分为六类：（1）全面化学分子库，如Enamine、PubChem和ChEMBL；（2）药物/类药化合物库，如DrugBank、AICD和e-Drug3D；（3）收集药物靶标，包括基因组学和蛋白组学数据的数据库，如BindingDB、Supertarget和Ligand Expo；（4）存储通过筛选、代谢和功效研究获得的生物学数据的数据库，如HMDB、TTD、WOMBAT和PKPB_DB；（5）药物毒性数据库，如DrugMatrix、SIDER和LTKB基准数据集；（6）临床数据库，如ClinicalTrials.gov、EORTC和PharmaGKB。

这些数据库提供与候选药物相关的多维数据，例如化学结构，物理化学性质以及体内体外和临床数据。PubChem包含针对110万种生物测定法测定的1.024亿种化合物，总大小超过5TB。ChEMBL记录了许多化合物的ADMET数据且包含大量来自文献的数据，含有1500万种化合物-靶标对的活性数据。其他几个数据库专为药物和候选药物而设计，如e-Drug3D包含1930种分子量≤ 2000的小分子药物，提供了一种探索FDA批准药物和活性代谢产物的公开工具。BindingDB包含了780,240药物与7371靶标（数据库中仅收录蛋白/酶靶标）的1756,093条结合数据（截至2019.10.29访问）。HMDB记录有关人体中发现的114,162个小分子代谢物的详细信息，包括水溶性和脂溶性代谢物。WOMBAT是用于先导化合物发现的生物活性数据库，包含331,872条数据，代表1966个带有生物活性注释的靶标。相比之下，DrugMatrix专注于约600种药物的毒性数据。AACT含有有关ClinicalTrials.gov中注册的每个研究的所有信息。PharmGKB是一个药物基因组学数据库，涵盖药物分子的临床信息，并包含733种具有临床信息的药物。

大数据中的多V特征带来的挑战

数据驱动的计算机辅助药物设计（CADD）研究需要解决多个V的挑战（图1），即以最快的速度（veracity）高效地处理从各种来源（variety）生成的数据集，由不同的平台（venue）以特定的时间长度（volatility）共享，并可用具有特定质量（veracity）和有效性的不同术语（vocabulary）来描述公开数据集。数据种类繁多难以管理且化学结构在不同平台的编码及文件格式不一，这些特点凸显了为数据制定一套通用标准的迫切性。如图2所示，当从药物发现的早期阶段过渡到临床试验时，药物分子的数据量逐渐减少，将临床数据库与收集化学物质一般信息和一般生物学活性的数据库比较，后者数据量大于前者且始终包含>100万种化合物。这些数据为早期药物发现阶段提供了有用的信息，但多V特征也带来了新的挑战。

图1.药物研发中大数据的十V特征

图片来源：Drug Discovery Today

图2.药物研发各阶段可用数据库的大小

图片来源：Drug Discovery Today

数据质量参差不齐是公开数据库的普遍问题。目前，ChEMBL和PubChem数据之间存在大量重叠。如图3所示，研究比较从这两个库获得的数据，许多应答显示为缺失数据，因为这些化合物未用所有测试法进行测试。除了生物测定数据完整度不一，PubChem数据中活性应答率也有偏差。例如阿昔洛韦的测定中有13个活性响应和204个非活性结果，克霉唑却有163种活性响应和42种无活性结果。除数据准确性外，有效性也决定了数据质量。转化医学推进中心NCATS提出了定量HTS（qHTS），使用多重浓度测试来测试药物分子，并产生了更多数据来测试相同的化合物。这对于管理药物开发阶段的大数据具有重大意义。最后，考虑到速度和多样性，药物发现中大数据的可视化也需要新的工具。

图3.比较ChEMBL和PubChem中1930种FDA批准药物的生物学数据情况

图片来源：Drug Discovery Today

大数据驱动的机器学习技术

在药物发现中的应用

QSAR建模是ML方法在药物发现中的经典应用之一，该方法自1964年起一直是找寻化学结构与其活性之间相关性的有效方法。QSAR模型早期采用简单的线性回归方法，之后发展到运用新的非线性方法完成建模（随机森林、支持向量机和K最近邻）。QSAR在药物发现中的应用通过对候选药物进行虚拟筛选节省了资源，可在化学合成前优先考虑具有期望的治疗活性和较少副作用的候选药物。

除了QSAR，在药物开发过程中还有许多其他ML应用。如通过将统计框架应用于化学模式匹配研究，将生成模型应用于新药设计，能够快速决策以及提供无限的虚拟化学空间。ML还被应用于新兴组学数据，生成个性化的新型生物标记物。新的ML技术如人工神经网络（ANN）可以帮助解决药物发现中大数据带来的多V挑战。2012年默克在QSAR ML挑战赛中强调了深度学习在虚拟筛选中的应用，深度学习网络（DNN）基于传统的分子描述符，表现出比其他ML方法更好的性能。2014年NCATS发起TOX21挑战赛，DeepTox是一种基于深度学习的毒性预测模型，在所有计算方法中表现出最高的性能。深度学习还被用于从头药物设计，如使用DNN方法基于分子的连续编码来探索化学空间；利用循环神经网络（RNN）生成具有所需生物活性的分子文库；预测药物与靶标之间的相互作用；老药新用等。总体而言，在使用所有组合描述符进行训练和交叉验证的模型中，深度学习在所有指标上都是最有效的。鉴于生物系统的复杂性及多V特征，ML及深度学习方法仍难以具有普遍优于其他方法的资格。

总结

在当今的大数据时代，计算工具的发展及公共数据量的快速增长推动了CADD的发展，ML及深度学习已用于药物开发的各个阶段。然而，大数据的多V特征带来了新的挑战，需要更好的数据库管理、Web设计，更好的质量控制和更透明的数据报告。此外，药物发现中的大数据存在明显的局限性，如涉及知识产权敏感结构的项目没有共享权限；很难用新生成的数据和新算法来更新CADD软件；CADD在工业界的应用仍备受质疑。新的建模算法或将成为解决多V挑战的关键。

参考文献：

Zhao L, Ciallella HL, Aleksunes LM, Zhu H, Advancing computer-aided drug discovery (CADD) by big data and data-driven machine learning modeling, Drug Discovery Today (2020), doi: https://doi.org/10.1016/j.drudis.2020.07.005

实时关注公司行业最新动态

DDT | 大数据及机器学习加速计算机辅助药物设计的发展