蛋白质
是生命的基石,由氨基酸链组成,并折叠成复杂的形状。蛋白质根据储存在DNA中的指令产生复杂的生物分子,它们执行着至关重要的细胞任务,并完成各种机体功能。一些蛋白质是有益的,例如那些参与消化食物的蛋白质;而另一些则是有害的,例如那些参与肿瘤生长的蛋白质。它们各自都有着非常复杂的形状和结构。
由于蛋白质的形状与其功能密切相关,因此,了解蛋白质的结构可以更好地了解其作用和工作原理,这也是解决许多生命科学问题的关键,例如为疾病设计新的疗法或疫苗,或解决粮食安全问题和环境污染问题等。
2020年11月,Google旗下人工智能团队DeepMind宣布开发出一个人工智能驱动的蛋白质折叠模型,可以使用算法快速预测蛋白质结构,从而解决了生物学领域50年来的重大难题,即蛋白质如何折叠。这意味着,曾经分子生物学家需要花费数年实验来破译的蛋白质结构,AlphaFold只需在几分钟内就能完成。这一突破性的进步证明了人工智能对科学发现的影响。
2021年,DeepMind和欧洲分子生物学实验室(EMBL)旗下欧洲生物信息学研究所(EBI)
在《Nature》上发布了由AlphaFold预测的蛋白结构数据库,涵盖了人类和20种常用模式生物的35万个蛋白质结构,并且对98.5%的人类蛋白质结构进行了准确预测。
而且,
AlphaFold
还入选《Science》
2021年度科学突破榜首。不过,上述突破仍是已知约200亿种蛋白质中的一小部分。
当地时间7月28日,DeepMind和EMBL-EBI联合宣布,AlphaFold揭示出蛋白质“宇宙
”
的结构——已预测出100万个物种超过2亿个蛋白质的结构,几乎涵盖了地球上所有已知蛋白质。并且,正在加速几乎所有生物学领域的研究。同一天,
《Nature》
新闻也对此进行了报道。从今天开始,确定已知的几乎所有蛋白质的结构将变得像使用搜索引擎一样简单。
这些蛋白质“宇宙”的数据将在DeepMind和EMBL-EBI联合建立的数据库中免费提供。该团队希望这一突破性的资源将有助于加速全球科学研究和发现,其他团队可以从AlphaFold上取得的进展中学习和开发,以创造进一步的突破。
最新公布的2.14亿个蛋白质结构是基于另一个名为UNIPROT的数据库中的序列。巴塞罗那Josep Carreras白血病研究所的计算生物学家Eduard Porta Pardo表示,科学家很可能已经对其中一些蛋白质的形状有了概念,因为它们在实验结构的数据库中被涵盖,或者与这类数据库中的其他蛋白质相似。
根据EMBL-EBI的说法,在超过2.14亿个预测中,大约35%被认为是高度准确的,这意味着它们与实验确定的结构一样好;另外45%的预测被认为可以在许多应用中使用。
许多AlphaFold预测的结构足够好,可以在某些应用中取代实验结构。或者,研究人员可以使用AlphaFold预测来验证和理解实验数据。不好的预测结果往往是显而易见的,其中一些是由蛋白质本身的内在无序性造成的,这意味着它没有明确的形状。
DeepMind的创始人兼首席执行官Demis Hassabis在发布的声明中表示,从本质上讲,最新公布的预测已经涵盖了整个蛋白质世界,包括动物、植物、细菌、真菌和其他生物体的预测结构。这一进展为AlphaFold在可持续性、粮食安全和被忽视的疾病等重要问题产生的影响开辟了巨大的新机会。
参考文献:
https://www.deepmind.com/blog/alphafold-reveals-the-structure-of-the-protein-universehttps://www.nature.com/articles/d41586-022-02083-2https://www.nature.com/articles/s41586-021-03819-2