JCIM | 全球最大的筛选数据库ZINC20上线,新增数十亿分子及两大快速检索方法

JCIM | 全球最大的筛选数据库ZINC20上线,新增数十亿分子及两大快速检索方法

引言

鉴定及购买新的小分子以进行生物学实验可以帮助配体发现,但基于廉价的按需定制化合物库的可购买化学空间已经持续增长到数百亿,简单的化学空间搜索都成为一个重大挑战。ZINC是一个汇总了化合物的销售及其他注释信息的公开数据库,其数据量从2005年的不到100万增长到现在近20亿。面对如此庞大的数据量,传统的化学空间搜索及分子表示方法逐渐变得笨拙,迫切需要新的搜索算法来保持较快的响应速度和满足不同的搜索需求。

背景

全世界库存化合物每年仅增长百分之几,而按需定制库则成倍增长,数年之后,市售化合物的数量将达到1012 ,化合物多样性也将得到极大扩展,迫切需要新的方法来搜索这个化学空间。传统搜索方法如基于ECFP4 Tanimoto对10亿分子进行40%相似度检索需要3分钟以上,而3分钟以上的全分子相似性搜索往往会因非实时搜索而直接失去研究人员的关注。对于子结构和模式检索,这种非实时(响应时间>3分钟)问题更加严重。

解决此问题的一种方法是通过使用特征树(近似药效团)在构建块(building-block)空间中搜索来避免完全枚举数据库。该方法在相同的时间内能比基于分子指纹的搜索方法搜索10倍之多的分子,在化学空间增长时,该方法仍能保持竞争力。缺点是不如基于原子水平的枚举化合物库方法精确,无法准确匹配氢键供体和受体的特定模式。

UCSF的John J. Irwin教授发布了ZINC20(zinc20.docking.org),提出了新的搜索方法决传统基于原子分辨率搜索方法的弊端。

ZINC20的新增化合物

ZINC的规模不断扩大,ZINC20现在包括14亿化合物,其中13亿来自150个公司共310个产品目录。这些化合物满足90/90/90规则,即超过90%的目录每90天更新一次且90%以上的化合物均可购买。新增的数据集包括10^10个分子,暂未添加到ZINC中。

为了研究按需定制库与物理筛选平台中分子的多样性,作者从骨架多样性和分子形状两方面开展实验。对ZINC按需定制库(大部分来自Enamine REAL)和其他几个公开的物理筛选库(NIH的小分子库MLSMR,UCSF小分子库SMDC,ZINC的Ro4化合物存货)计算Bemis-Murcko骨架并统计每个骨架内化合物的数量,研究结果显示,按需定制库中超过97%的化合物无法在ZINC存货中找到,新的骨架数量几乎与分子数量呈线性关系增长。当骨架数量增长16倍时,按需定制库的分子数量是ZINC存货库的88倍。使用NPMI方法对各库分子形状分类后发现,按需定制库的分子在结构上也比物理筛选库更多样化,盘状(如苯环)及球形(如金刚烷)分子大幅增加。

ZINC20的新增搜索工具

  • 全化合物相似搜索 SmallWorld

SmallWord(https://sw.docking.org)是一种图形编辑距离和最大公共子图(MCS)方法,主要创新之处是为所有可能列举的分子的匿名图做了预索引。该方法在磁盘够大够快速的情况下,搜索时间呈亚线性时间增长,几乎与搜索的分子数无关。在一个1660亿的分子库中,只需1-2秒就能在作者的计算机上找到最相似分子。对按需定制库进行检索时,成千上万的分子类似物通常在15秒内出现。而使用将ECFP指纹存储在Postgres中索引的方法则需要3分钟以上的时间才能在14亿分子中找出最相似的100个类似物。对1000多个分子搜索类似物时,SmallWord为每个分子找到前100个类似物的平均响应时间为2秒。与任何已知的基于指纹的方法相比,这是一种根本性的算法改进。 

JCIM | 全球最大的筛选数据库ZINC20上线,新增数十亿分子及两大快速检索方法

图1. SmallWord用于ZINC全分子相似性检索的界面

图片来源:JCIM

  • 子结构检索及模式匹配Arthor

Arthor(https://arthor.docking.org)通过联合分子的一致性二进制表示形式和基于SMARTS的自定义模式匹配器来对分子进行操作。一台内存为128G的计算机,Arthor能在1-2秒内搜索10亿分子的子结构或化学型。与SmallWord不同,Arthor的性能受到分子数量的制约,但该方法已是迄今为止原子水平上进行子结构和模式搜索最快的方法。它还可以使用RoundTable算法在几台计算机上并行以快速搜索数十亿甚至数百亿分子。为了更适用于一般性搜索需求,作者将Arthor搜索的上限设为10000个分子。对常见模式如苯基和环己基,通常不到一秒就能发现前10000个分子,复杂的模式则需要10-20秒完成14亿分子的搜索或达到10000分子的上限。

JCIM | 全球最大的筛选数据库ZINC20上线,新增数十亿分子及两大快速检索方法

图2. Arthor用于ZINC子结构检索和模式匹配的界面

图片来源:JCIM

参考文献

ZINC20—A Free Ultralarge-Scale Chemical Database for Ligand Discovery. John J. Irwin, Khanh G. Tang, Jennifer Young, Chinzorig Dandarchuluun, Benjamin R. Wong, Munkhzul Khurelbaatar, Yurii S. Moroz, John Mayfield, and Roger A. Sayle. Journal of Chemical Information and Modeling Article ASAP. doi: 10.1021/acs.jcim.0c00675

X