Nature | AlphaFold:生物史最全蛋白质图谱的绘制者

Nature | AlphaFold:生物史最全蛋白质图谱的绘制者
Nature | AlphaFold:生物史最全蛋白质图谱的绘制者

Nature | AlphaFold:生物史最全蛋白质图谱的绘制者

引言

在这个生化环材领域人才疯狂内卷的时代,人工智能的加速发展,再一次改变着人类的生活轨迹及研究进程,至此,内卷的路越走越远,越来越卷……

这不,继2021年07月15日,《Nature》发布了DeepMind有关AlphaFold的最新版本——AlphaFold2之后,仅仅一周,2021年07月22日,AlphaFold2便再次登上《Nature》。并且,这两期的《Nature》甚至来不及编辑,都是以手稿的形式直接发布,可见内容之震撼,这一点通过同期《Nature》报道的一些专业人士对明星AlphaFold的看法中也可以看出:

(1) 伦敦大学学院(UCL)的计算生物学家Christine Orengo坚信,“从我的角度来看,这是完全的变革。有了这些蛋白质的形状,你就能深入了解它们的机制”。

(2) 曾在AlphaFold的早期迭代中为DeepMind提供过建议的,同样来自伦敦大学学院的计算生物学家David Jones赞叹道,“这是令人惊讶的第一步,我们有这么庞大的数据!”

(3) 还有许多科学家认为AlphaFold的一些预测与非常好的实验模型相当,因此其影响将是划时代的。

(4) DeepMind联合创始人兼首席执行官Demis Hassabis表示,“这是人工智能系统迄今为止对推进科学知识做出的最大贡献。我认为这么说毫不夸张。”

接下来,让我们一起来看看,明星AlphaFold为何如此受人追捧?

明星AlphaFold究竟干了什么?

人类基因组包含超过20000种蛋白质,而截至目前,只有其中三分之一通过实验确定了它们的三维结构,而且在许多情况下,这些结构也只是部分已知的。在此,谷歌子公司DeepMind,通过应用最先进的机器学习方法AlphaFold,大规模地扩展了几乎整个人类蛋白质组(人类蛋白质的98.5%)的结构覆盖范围。结果数据集覆盖了58%的残差,具有置信预测,其中一个子集(所有残差的36%)具有非常高的置信度。此外,该工具还预测了从老鼠、玉米到疟疾寄生虫等各种其他生物的几乎完整的蛋白质组。

目前在公共数据库中,可以找到的35万多种蛋白质结构,其准确性各不相同。但研究人员同时表示,到今年年底,这种资源将增加到1.3亿个结构,将给生命科学带来革命性的变化。

图1. 人类介导子复合体,一直是结构生物学家最难理解的多蛋白系统之一。图片来源于Nature

明星AlphaFold可以带来什么?

上周,DeepMind发布了最新版本AlphaFold2的源代码,以及详细描述了它是如何开发的(学术团队已经开始利用这些资源进行有用的预测)。DeepMind在准备公开代码的过程中,为了提高代码的运行效率,对代码进行了改进。通常CASP目标的一些预测需要几天时间,但AlphaFold2现在可以在几分钟到几小时内就计算出它们。因此,由于这种额外的效率,DeepMind团队预测人类基因组编码的几乎所有已知蛋白质的结构,以及20种生物物种的蛋白结构。

DeepMind的科学工程师Kathryn Tunyasuvunakool表示,“我们希望给实验人员和生物学家一个明确的方向,告诉他们应该依赖哪些预测。” Tunyasuvunakool还补充说, “对于人类蛋白质组来说,AlphaFold2对单个氨基酸位置有58%的准确预测已经是足够好的了,足以确定蛋白质折叠的形状。这些预测中的一部分,尽管只占总数的36%,而这已足够精确,能够详细描述对药物设计有用的原子特征,比如酶的活性位点等。”

与此同时,研究人员也强调,数据转储只是一个开始,而不是结束。他们想要验证这些预测,更重要的是,将它们应用到迄今为止不可能的实验中。

图2. AlphaFold已经预测了人类和超过20种生物物种中几乎所有的蛋白质结构。图片来源于Nature

明星AlphaFold可能影响什么?

研究者预计,常规的大规模和高精度的结构预测,将成为一个重要的工具,允许人类从结构的角度解决新的问题。目前,研究者正通过公共数据库(由欧洲生物信息学研究所托管,网址:https://alphafold.ebi.ac.uk/,已正式上线),向社区免费提供他们的预测。正如前文所述,AlphaFold2上周储存了大约36.5万个结构,预测到年底将扩增至1.3亿个,接近所有已知蛋白质的一半。

然而,我们应该清醒地认识到,面对如此庞大的数据,结构生物学家应该思考,如何处理这么多结构?如何将它们和实验结合起来?正如David Jones在接受采访最后谈到,“这将会有很多会议。现在我们有了1.3亿个模型,这会如何改变我们对生物学的看法呢?或许这并不能改变当前现状。但我猜测未来它会的。”

换句话说,机器已经做好准备了,那么,人类呢?是否已经做好人工智能和大数据带来冲击的准备了吗?

参考文献

1. Jumper, J. et al., Highly accurate protein structure prediction with AlphaFold Nature, Nature, 2021, Published: 15 July 2021. DOI: 10.1038/s41586-021-03819-2.

2. Tunyasuvunakool, K. et al., Highly accurate protein structure prediction for the human proteome, Nature, 2021, Published: 22 July 2021. DOI: 10.1038/s41586-021-03828-1.

3. Nature News: DeepMind’s AI predicts structures for a vast trove of proteins, Nature, 2021, Published: 22 July 2021. DOI: 10.1038/d41586-021-02025-4.