新闻资讯

新闻资讯 媒体报道

破解生物界50年重大挑战!DeepMind用AI精准预测蛋白质结构

编辑:005     时间:2020-12-07
Alphabet旗下公司DeepMind本周一在官网中宣布,已经开发出可以快速准确预测蛋白质结构的机器学习软件AlphaFold,用于药物开发。在两年一次的蛋白质结构预测评估(Critical Assessment of protein Structure Prediction,下称CASP)中,AlphaFold平均GDT得分达到92.4,与药物实验模拟结果相差无几。

DeepMind在博客中写道:AlphaFold解决了困扰生物界50年的问题——蛋白质是如何折叠的,这是一个巨大的科技突破。



一、预测纳米级蛋白质结构,AlphaFold比药物模拟更强

对于生命来说,蛋白质必不可少:它们运输物质、作为酶进行化学反应,作为抗体抵御病毒……所有这些功能都是通过结构决定的。如果我们想要设计出有特定功能的蛋白质,我们必须了解不同的结构都具备怎样的功能。

一般来说,药理学家会通过大量的观察和统计,得到粗略的经验:怎样的蛋白质结构大致具备怎样的功能,但由于蛋白质是纳米量级上的3D结构,通过这样不断枚举的“笨”办法设计药物是非常棘手的。

所以目前,很多公司和高校都在研究,如何通过计算机程序检测组成蛋白质的各类氨基酸,再基于氨基酸反推蛋白质结构,DeepMind的AlphaFold就是其中之一,也是目前的第一。

创立于1994年的CASP,致力于促进蛋白质预测领域的研究,关注该领域的进展,以及建立最新的技术标准。

每两年,CASP都会以实验室最新研究出的蛋白质结构为目标,开展一次蛋白质结构预测比赛。各参赛团队在不知道该目标蛋白质的情况下,以功能需求为导向,设计该蛋白质结构,CASP会将各团队的预测结果与目标蛋白质的真实实验数据相比对,进行评分。


▲GDT评分

在本周一,第14次的CASP评估中,AlphaFold在所有类别比赛上,GDT总体平均得分达到92.4,比药物模拟实验的得分(GDT90)还高,在最具挑战性的自由建模类中,中位数得分也达到了87.0。

GDT是Global Diatance Test的简称,也就是全局距离测试,代表两个蛋白质结构之间的相似度,分数从0到100,得分越高,预测模型与目标结构相似度越高。



▲左为药物实验室结果,右为AlphaFold结果

诺贝尔化学奖得主、英国结构生物学家Venki Ramakrishan说:“DeepMind的这项工作代表了蛋白质结构预测领域的惊人进展,这是一个生物学上的重大突破,将从根本上改变生物学研究方式。”

二、神经网络端对端训练,绘一张完整的“蛋白图”

在2018年,初代AlphaFold就参与了CASP测试,尽管GDT得分不足60,但排名仍位居第一,在随后的两年内,AlphaFold团队引入深度学习框架,基于初代模型不断改进创新。

▲CASP历年自由建模类别,最佳模型GDT得分

折叠的蛋白质结构可以被简单视为“空间图”,已知的信息和结构是基点,所有的研究预测工作都是为了将这些基点连接起来,组成一张立体的空间图。

▲AlphaFold神经网络模型架构

如果想要实现上述这一过程,模型必须要“理解”图中蛋白质内的相互作用和影响。

因此,AlphaFold研究团队创建了一个基于注意力的神经网络系统,通过端到端训练解释该图结构,同时对所隐含的信息进行推理预测,此外,AlphaFold还使用相关的蛋白质进化序列、多序列比对(MSA)以及氨基酸残基对表示法作为补充。

通过重复此过程,AlphaFold能够在几天内实现蛋白质高精度结构的预测,且基于内部置信度量度判断每个预测是否可靠。

AlphaFold使用了公开数据集进行了模型训练,包括来自蛋白质数据库的约170000种蛋白质结构以及其他未知结构的蛋白质序列数据集。AlphaFold基于约16个TPUv3(相当于128个TPUv3内核或大约相当于100到200个GPU)训练了几周时间,相对于大多数最新机器学习模型,计算量并不大。

AlphaFold研究团队表示正在准备相关论文,以将研究成果向同行分享。

三、要打击新冠,还要探测未知蛋白

在官网博客上,AlphaFold研究团队表示,AlphaFold未来会在新冠肺炎危机中大有可为。

在今年早些时候,研究团队通过AlphaFold预测了SARS-CoV-2病毒的几种蛋白质结构,包括从前结构未知的ORF3a以及另一种冠状病毒蛋白ORF8。

尽管这两种蛋白质的相关研究较少,但通过与实验室数据相比对,AlphaFold所预测的蛋白质结构准确性仍非常高。

除了加深对已知疾病的了解之外,AlphaFold团队也希望拓展更广阔的生物学领域,为有可能出现的疾病做好准备。

DNA指定了蛋白质的氨基酸序列,而根据基因组学,世界上应该存在1.8亿个蛋白质序列,但受限于测序工作的庞大工作量或其他原因,目前蛋白质数据库中只涵盖约170000种蛋白质结构。

在这些还未被“开采”的蛋白质中,或许有一些具有意想不到的新奇效,AlphaFold就像哈勃望远镜探索宇宙一样,帮助人类找到它们。

结语:与传统研发互补,AlphaFold探索更多未知领域

AlphaFold研究团队表示:“现在,预测单一蛋白质结构已基本实现,预测蛋白质复合物结构将会是下一步。但在这个巨大工程中,AlphaFold不可能“单打独斗”。”

尽管AlphaFold预测的结果几乎与传统药物研发效果相同,但它不会完全取代实验室实验,因为药物开发依旧是个复杂的过程,目前AlphaFold并不能理解蛋白质分子之间或蛋白质分子与如DNA或RNA等其他分子的相互作用。

AlphaFold研究团队在博客中写道:“ AlphaFold是迄今为止我们最重要的成果之一,但是,与所有其他研究一样,仍有许多问题急需解答。我们与其他团队合作,学习如何在新药开发中最好地利用这些工具。”


                                      本内容属于网络转载,文中涉及图片等内容如有侵权,请联系编辑删除








郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

回复列表

相关推荐