专访廖小平丨开发首个基于图数据库的大肠杆菌代谢调控图谱

核心提示设计-构建-测试-学习 循环的概念是合成生物学应用的核心。在微生物菌株开发过程中,这一循环用以提升菌种性能,解决生产瓶颈。然而, DBTL 可能会进入无效循环,其众多的工程周期只会产生大量的信息,而不会导致产品性能的突破。“这是因为重编程

设计-构建-测试-学习 循环的概念是合成生物学应用的核心。在微生物菌株开发过程中,这一循环用以提升菌种性能,解决生产瓶颈。然而, DBTL 可能会进入无效循环,其众多的工程周期只会产生大量的信息,而不会导致产品性能的突破。

“这是因为重编程细胞代谢可能会引起未知的变化,消除一个已知的瓶颈可能会导致新的限速步骤;并且,生产过程不仅受生物特性控制,还受多尺度工程变量的控制,生物反应器条件、培养基组成、毒性和底物都可能对菌株性能产生相互关联的影响。”廖小平分析道。

廖小平 2006 年本科毕业于中国科学技术大学,随后进入中国科学院数学与系统科学研究院攻读博士学位。2011 年,他顺利完成博士学业,并前往加拿大阿尔伯塔大学开展为期 3 年的博士后研究。回国后,他进入中科院天津工业生物研究所工作至今,并于 2018 年加入中科院青促会。

▲图丨廖小平

中科院天津工业生物技术研究所生物设计中心平台实验室

重点要构建生物技术和信息技术相结合的技术体系

,希望未来能够将菌种设计构建的主要工作负担从人类转移到计算机。这也正是廖小平的兴趣所在。

“机理模型难以纳入所有影响因素及评估其协同作用对宿主代谢的影响。相比之下,数据驱动技术,比如人工智能,可以从数据中捕获复杂的模式和多细胞尺度的关系,人工智能可以成为多尺度建模和过程优化的一个有前途但尚未开发的解决方案。”

“围绕菌种设计改造的核心任务,生物设计中心主要有两大方面的工作,其一是开发核心数据库;其二是研发计算机辅助生物设计工具。”廖小平告诉生辉 SynBio。

近日,生物设计中心在“开发核心数据库”工作方面取得了新进展。廖小平副研究员和马红武研究员作为共同通讯作者,在 Nucleic Acids Research 上发表了题为“ERMer: A serverless platform for navigating, analyzing, and visualizing Escherichia coli regulatory landscape through graph database”的研究论文,开发了

目前第一个基于图数据库的大肠杆菌代谢调控知识图谱云平台 ERMer 。ERMer 通过结合 AWS Neptune 图数据库、无服务器架构和图形可视化引擎,实现了多种复杂调控级联或模式的快速检索和可视化。

首个大肠杆菌代谢调控知识图谱

知识图谱这一概念最早出现于计算机领域,可以追溯至二十世纪的五、六十年代。它是一种用结构化的形式,将世界中的实体概念及其关系以图的形式展现出来的方式。

知识图谱由“节点”和“边”组成,“节点”可以代表一个概念、一个属性、一个事件或者一个实体,“边”则用来表示节点之间的关系,指明关系的类型。以本研究为例,ERMer 包含了四大类节点,包括基因、反应、代谢物和途径;九大类边,包括反应-途径,反应-产物,底物-反应等。

国务院《新一代人工智能发展规划》将知识图谱作为新一代人工智能关键共性技术体系的重要组成部分,投入大量经费来研究知识图谱的理论、技术和应用。

作为大数据之下的一种新型的知识组织和检索技术,知识图谱使人们能够更快速、准确地获得所需要的信息。举一个常见的例子,Google 知识图谱是 Google 于 2012 正式发布的一个知识库,其使用语义检索从多种来源收集信息,以提高 Google 搜索的质量。

“在生物领域内,生物网络天然就非常适合知识图谱的框架。最近几年也有少量的相关报道,用图数据库的技术对生物数据进行存储和分析。”廖小平说道。

就在今年 1 月, Nature Biotechnology 杂志上发表了一篇题为“A knowledge graph to interpret clinical proteomics data”的研究论文,该临床蛋白质组学数据的知识图谱是生物领域应用的又一个标志性的成果。

不过,

目前已知的该类工具使用门槛都比较高。它们通常需要使用者具有一定的编程基础,以及懂得 Cypher 之类的专业查询语言。这样一来,对于完全不懂编程的生物学家来说,使用起来是非常困难的。

在这种背景下,该大肠杆菌代谢调控知识图谱又是针对什么样的科学问题呢?

廖小平介绍说,细胞中的代谢调控非常复杂,一个特定的细胞功能往往由一系列不同类型的调控相互作用控制。例如,氨基酸的代谢通常由不同类型的相互作用组成的反馈或前馈回路来调节。由于缺乏对这些调控关系的全局性认识,代谢重塑时常因为触发胞内复杂调控机制而无法达到预期目标,这是

目前细胞工厂构建中的共性基础问题。

细胞中不同类型的代谢调控数据通常散落在各个不同的数据库,生物学家很难通过关注与所研究的代谢物/蛋白质密切相关的一两类相互作用来识别这种复杂调控级联关系。

因此,将这些不同类型的代谢调控相互作用汇集在一起,并提供方便的交互方式,将极大地方便生物学家挖掘和理解生物体内的复杂调控关系。

基于以上这样的背景和生物学问题,就有了这项研究。

有人曾这样比喻,“如果把传统关系型数据库比作火车的话,那么到现在大数据时代,图数据库可比作高铁。”

“我们生物设计中心团队

首次提出了一个存储和分析高连接数据的新框架,实现了非常高效的交互式检索和可视化,该框架具有很好的通用性和扩展性,不仅仅适用于大肠杆菌,还可以很方便地扩展到很多其他的生物学

应用场景里面去,具有比较好的推广价值。我们利用这个框架,开发了首个基于图数据库的大肠杆菌的代谢调控知识图谱 ERMer。”

▲图丨ERMer 通过结合 AWS Neptune 图形数据库、AWS lambda 函数和 G6 图形可视化,提供了与大肠杆菌调控格局交互的功能

ERMer 的使用不要求用户具备任何的编程基础,可以通过网页点击来与大肠杆菌代谢调控图谱进行交互,实现了多步查询或者说复杂链路查询的一些功能,可以快速地得到所有的调控链路。非常有趣的一点是,这一知识图谱

首次采用了问答式的交互方式,能够通过问答方式检索跨路径的关键调控代谢物和调控因子。

▲图丨检索调节两种通路的关键转录因子

“这样的话,

普通的生物学用户也可以利用 ERMer

去发现一些新的调控模式,以及潜在的对于菌种改造有意义的新靶点。”

接下来,ERMer 还将进一步完善。“我们提出的是一个宽泛性的框架,采用大肠杆菌的代谢调控数据来做的只是一个 Demo,以其作为一个切入点,后续将开发集成更多生物学数据的知识图谱。基于现在构建的知识图谱所进行的信息挖掘和验证工作,可能走出一条解决生物学问题的新路线。”廖小平说道。

重点构建“BT+IT”的技术体系

生物设计中心的终极使命是实现工程生物的按需计算设计,这实际上是计算生物学、生物信息学、人工智能生物学、数学、计算机科学等多学科的交叉。目前,生物设计中心重点布局了元件设计、途径设计、细胞设计、生物大数据及智能分析等几个方向。

“我们想发展一个新的工业生物大数据及智能分析技术体系,以期加速菌种改造设计的过程。”廖小平告诉生辉 SynBio。

除了上面提到的“开发核心数据库”方面的最新工作,今年以来,团队在“研发计算机辅助生物设计工具”方面同样屡有突破。

其中,同样发表在Nucleic Acids Research上的一项研究,题为“AutoESD: a web tool for automatic editing sequence design for genetic manipulation of microorganisms ”。研究团队开发得到了 “

第一个适用所有操作类型、任何基因组位点和跨物种的精确、自动化和高通量基因编辑序列设计的云平台—— AutoESD。”该研究

主要针对菌种的自动化构建环节。廖小平副研究员为本文共同通讯作者之一。

“模块化、标准化是合成生物学区别于传统发酵行业的一个重要的标志。在实现真正的自动化与高通量的过程中,除了针对元件工具以外,通过各种软硬件结合,将合成生物学的相关实验流程进行模块化、标准化,也是不可或缺的一环。最终,我们希望能够摆脱传统实验室的这种劳动密集型的研究模式,获得更高的技术迭代能力。”

他举例说道,开发具有目标新功能的工程生物,或者说微生物菌体,是合成生物学中的一个重大的研究方向,实现对于生命体基因组上的改造,通常需要使用基于筛选标记的同源重组 和 CRISPR/Cas 技术等等。这项研究以基于筛选标记的同源重组技术为例。

在不同的实验过程中,常见的问题或者说是重要的步骤,在于

编辑序列设计。这些序列具体包括替换 DNA 片段的引物,引导基因组定位的同源臂或向导 RNA,以及用于最终测试改造结果的引物,关系到最终目标菌种是否能够成功构建。

目前已有的计算机辅助设计工具,例如酿酒酵母 CRISPR/Cas 基因敲除设计、谷氨酸棒杆菌基因组点突变设计等,均具有一定的局限性。它们或仅针对特定的物种,或受限于操作类型。此外,这些工具往往只局限于编码序列,而忽略了非编码序列,比如启动子RBS改造需求。因此,常常无法满足

普适性的编辑序列的设计需求。

“针对这些被忽视的具体的应用场景,我们生物设计中心团队利用工程生物学的概念去做模块化、标准化,

开发了第一个跨物种、适用任何操作类型、任何基因组位点的自动化和高通量编辑序列设计的平台。”

▲图丨AutoESD 的功能和应用

他继续说道,由于我们采用的是一种云上的无服务器的架构模式,该平台还具有非常强大的高通量性能,

可以同时支撑几百个终端用户,每个用户可以提交几千个编辑目标设计需求,并且

仅需几分钟时间便可得到反馈结果。

而这只是生物设计中心布局的计算机辅助设计工具中的一个例子。

采访最后,廖小平表示,目前,国外有越来越多的公司开始采用AI大数据加高通量分析的方式实现智能化控制,典型如 Gingko。我们目前构建 BT+IT 的技术体系,可能是解决菌种创制,实现弯道超车的一个机会。

我们生物设计中心正在探索一种不同于传统实验室的研发新模式,以数据为核心,以算法为核心,并且很有信心能够真正把菌种设计这一步做好。

 
友情链接
鄂ICP备19019357号-22