蛋白质
是生命的基石,由氨基酸链组成,并折叠成复杂的形状。蛋白质根据储存在DNA中的指令产生复杂的生物分子,它们执行着至关重要的细胞任务,并完成各种机体功能。有些蛋白质是有益的,如参与消化食物的蛋白质;其他的是有害的,比如蛋白质,它与肿瘤的生长有关。它们每一个都有非常复杂的形状和结构。
由于蛋白质的形状与其功能密切相关,了解蛋白质的结构可以更好地了解其功能和工作原理,这也是解决许多生命科学问题的关键,如设计疾病的新疗法或疫苗,或解决食品安全问题和环境污染问题。
2020年11月,谷歌人工智能团队DeepMind宣布开发出人工智能驱动的蛋白质折叠模型,该模型可以利用算法快速预测蛋白质的结构,从而解决了生物学50年来的一大难题,即蛋白质如何折叠。这意味着分子生物学家花了几年时间破译蛋白质结构,而AlphaFold只需几分钟就能完成。这一突破证明了人工智能对科学发现的影响。
2021年,DeepMind和欧洲分子生物学实验室(EMBL)下属的欧洲生物信息学研究所(EBI)在《自然》杂志上发表了AlphaFold预测的蛋白质结构数据库,覆盖了人类35万个蛋白质结构和20种常用的模式生物,准确预测了98.5%的人类蛋白质结构。
此外,阿尔法倍
还入选《Science》
2021年度科学突破榜首。然而,上述突破仍然是大约200亿已知蛋白质物种中的一小部分。
当地时间7月28日,DeepMind和EMBL-EBI联合宣布,AlphaFold揭示了蛋白质的“宇宙”。
的结构——已预测出100万个物种超过2亿个蛋白质的结构,几乎涵盖了地球上所有已知蛋白质。并且,正在加速几乎所有生物学领域的研究。同一天,自然
新闻也对此进行了报道。从今天开始,它将像使用搜索引擎确定几乎所有已知蛋白质的结构一样简单。
蛋白质“宇宙”的数据将在DeepMind和EMBL-EBI联合建立的数据库中免费提供。该团队希望这一突破性资源将有助于加速全球科学研究和发现,其他团队可以从AlphaFold上取得的进展中学习和发展,以创造进一步的突破。
最新公布的2.14亿蛋白质结构是基于另一个名为UNIPROT的数据库中的序列。巴塞罗那Josep Carreras白血病研究所的计算生物学家Eduard Porta Pardo表示,科学家可能对其中一些蛋白质的形状有所了解,因为它们包含在实验结构数据库中,或者与这类数据库中的其他蛋白质相似。
根据EMBL-EBI的数据,在超过2.14亿个预测中,大约35%被认为是高度准确的,这意味着它们与实验确定的结构一样好;另外45%的预测被认为在许多应用中是有用的。
在某些应用中,许多AlphaFold预测结构足以取代实验结构。或者,研究人员可以使用AlphaFold预测来验证和理解实验数据。坏的预测结果往往是显而易见的,有些是蛋白质本身固有的无序造成的,也就是说它没有确定的形状。
DeepMind创始人兼首席执行官戴密斯·哈萨比斯在一份声明中表示,从本质上讲,最新的预测已经覆盖了整个蛋白质世界,包括动物、植物、细菌、真菌和其他生物的预测结构。这一进展为AlphaFold对可持续性、粮食安全和被忽视的疾病等重要问题的影响带来了巨大的新机遇。
参考资料:
https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universehttps://www.nature.com/articles/d41586-022-02083-2https://www.nature.com/articles/s41586-021-03819-2