国内外医学信息学的研究热点与前沿的对比

核心提示本文选自中国工程院院刊《Engineering》2019年第6期作者:Kenta Nakai来源:Information Science Should Take a Lead in Future Biomedical Research[J]

本文选自《中国工程院学报》2019年第6期。

作者:仲井健太

来源:信息科学应该在未来的生物医学研究中起带头作用[J]。

工科,2019,5(6):1155-1158。

一.现代生物学和新技术

新技术的不断出现推动了现代生物学的发展。比如,20世纪60年代末,有一场关于分子生物学衰落的讨论(即从潜在大分子的行为角度理解生物现象的潜在局限性)。当时,许多科学家意识到传统方法(如基于噬菌体的实验)具有一定的局限性。这一领域的几位先驱,包括弗朗西斯·克里克本人,开始探索新方向的挑战。但是随着新技术的出现(比如重组DNA),所谓的分子生物学仍然是现代生物学的主流。最近,新一代测序(NGS)技术的兴起和爆炸性发展不仅在数量上而且在质量上改变了生物学和医学。NGS最终会通过社会保险制度的变化来影响社会。

在这篇综述中,我想简要回顾一下生物医学研究、数据科学和人工智能(AI)之间的关系,然后介绍一下我对未来生物医学研究的看法。

第二,信息科学在生物医学中具有特殊的重要性。

毫无疑问,在科学研究的所有领域(如处理“信息”的设备),计算机的使用都很重要。但作者想强调的是,计算机的使用在生物学(医学)中具有特殊的重要性,因为所有的生命系统基本上都是由自身的遗传信息(DNA)控制的。

。《纽约时报》中一篇关于Leroy Hood的文章中有一句名言:“生物学是一门信息科学。”当然,我们还远远没有达到只对基因组DNA序列进行理论研究就能理解生物学现象的地步。但计算研究的相对重要性无疑将在生物医学领域得到提高,即使是实验研究也会得到机器人和(或)人工智能的极大帮助。要了解复杂的生物医学现象,如癌症,我们就需要考虑系统(即在许多条件下,诸多基因产物与细胞类型之间的相互作用)。如果没有计算机模拟等计算技术的帮助,这样的努力是不可能得到结果的。

第三,数据科学非常适合生物学。

生物学的另一个重要特征是,到目前为止,生物学中还没有发现与牛顿定律等价的大定律或原理。著名物理学家欧内斯特·卢瑟福曾经说过,“所有的科学不是物理学就是集邮”。也许生物是他心目中“集邮”的典型。即使过了一个世纪,这种情况也没有多大改变。生物学的这一特征可能是与生俱来的,因为生物系统的进化方式相当短视,类似于自然语言的发展。如果生物系统和自然语言的进化是相似的,那么研究它们的有效方法也应该有共同点。的确,就像编字典对自然语言研究很重要一样,建立数据库来存储和组织生物学和医学领域的大量数据也非常重要。

。例如,核心学术期刊Nucleic Acids Research(牛津大学出版社出版)每年的第一期都以数据库为主题;另一个例子是,诸如隐马尔可夫模型(HMM)等概率建模方法已经在这两个领域得到了成功的应用。笔者相信这些事实证明了数据科学在生物医学中的重要性。

事实上,现代生物学作为一门数据驱动的科学已经取得了巨大的进步。

。在过去,人们通过巧妙的(小规模的)实验来证明某些假设;与此相反,如今通过处理大量系统化产生的无偏数据可以得到新的知识或假设,这种方法有时被称为“从数据到知识”(D2K)。这正是需要数据科学的地方,即使不知道基本原理,我们对生物医学的理解也应该在数据科学的帮助下加深至足以造福人类的程度。

四。人工智能和生物医学-综述

在计算机科学中,对人工智能的研究(这里,作者只把人工智能定义为试图让计算机变得像人类一样更“聪明”)由来已久,包括各种尝试,其中一些与生物医学密切相关。比如,20世纪70年代初,一个名为MYCIN的用于诊断细菌感染性疾病的计算机程序对社会产生了巨大影响;另一个例子是,在20世纪70年代末,斯坦福大学的MOLGEN项目将基于知识的问题解决方法应用于几个案例,包括设计遗传学实验。

我在读博士生的时候,选择了应用AI的主题——更具体地说,是基于知识/规则的专家系统——来解释新确定的基因组序列。实际上,作者构建了一个“if-then”专家系统来从氨基酸序列预测蛋白质的亚细胞定位。这些规则是根据已知与亚细胞位置相关的各种蛋白质分类信号和序列特征(如氨基酸组成)制定的。该系统被命名为PSORT,用于国际酵母基因组计划。后来我们利用机器学习技术(K最近邻算法)对系统进行了全面升级,用频繁更新的训练数据更容易完成更新和优化。它通过互联网运行,当时互联网还处于起步阶段。从那以后,PSORT家族的预测因子被分子生物学家广泛使用。目前人工智能在生物医学中的应用主流似乎是深度学习(见下文),但我认为传统上在生物医学中尝试使用知识库还是很重要的。

。这样的研究现在活跃在语义网领域。

动词 (verb的缩写)人工智能和生物医学

-最近令人兴奋的发展

近年来,人工智能的影响已经几次激起了人们的研究热情。显然,我们现在看到的浪潮很大程度上是由深度学习和相关技术的成功引起的。在生物学领域,一个里程碑可能是最近人工智能在蛋白质结构预测的关键评估(CASP)比赛中的胜利。

,该比赛自1994年以来每年举行一次。

在CASP中,参赛选手获得一组未知折叠[三维(3D)]结构的氨基酸序列的蛋白质,并提交其预测的3D结构,主办方将对其进行严格审核。在最近的第13届CASP中,DeepMind团队开发的AlphaFold预测系统(该系统以在传统围棋比赛中的成功而闻名)表现出了最佳的预测准确性。蛋白质折叠的基本问题已经研究了很多年,所以这个结果意义重大,虽然不代表问题本身已经完全解决。因此,类似的方法可能有助于解决DNA序列解释中存在的问题,并有利于个性化医疗。

。例如,人工智能可能有助于识别每个个体的基因组序列中潜在的与疾病相关的突变。事实上,一个商业化的基于人工智能的系统(the IBM Watson for Oncology)根据各种可用数据为医生提供优先治疗方案。最近,有一项针对中国癌症患者的人工智能系统与临床实践的一致性研究被发表。这种技术毫无疑问有助于:①加速对大量患者的个性化诊断;②及时更新系统以使其与新传入的数据相匹配;③优化针对特定族群的系统。下一个巨大的挑战可能是将这类机器学习方法与上述知识型方法相结合。

不及物动词现代生物医学通过NGS产生大量数据。

正如作者上面提到的,所有的生命系统都是基于它们被编码到DNA序列中的信息(即基因组信息)。NGS技术的最新进展使得以合理的成本(约1000美元或更低)确定每个个体的全基因组成为可能,这是一个约3.3×109个碱基的序列(实际上,每个个体基本上都有来自双亲的两个基因组)(图1)。

NGS在许多方面对于理解基因组DNA中包含的信息非常有用。

①由于大多数疾病都与基因组缺陷或变异有关,比较患者和健康人的基因组DNA序列应该有助于确定哪些差异与疾病有关。

。这种方法被称为全基因关联研究(GWAS)。一旦发现DNA的任何候选位置(即所在地)和某种表型,就可以采用另一种被称为DNA编辑的技术通过规律成簇间隔短回文重复(CRISPR)/Cas系统来培养细胞以确认这种关系。

②同样,不同物种和/或许多个体的基因组序列应该进行广泛的比较,以确定DNA的哪些部分是相同的。

(即保守的),因为这些区域可能有相同的功能。同样有趣的是,利用这样的比较可以弄清一个物种基因组的新变化将引发什么样的进化创新。例如,由于人类基因组和黑猩猩(以及其他灵长类动物)的基因组非常相似,因此了解人类基因组之间的关键差异是非常重要的。

③重要的是,DNA序列通过表观遗传学直接和间接影响我们的生活。

。例如,现在已经证实,基因读取活跃的DNA区域处于暴露的结构中,并且在DNA本身或其结合蛋白(组蛋白)上标记有特殊的化学修饰。这些标记被用作一种细胞记忆。这些机制似乎是理解单个受精卵如何系统地产生各种细胞的关键。有趣的是,NGS技术不仅用于“读取”DNA序列,还可以通过染色质免疫沉淀测序(ChIP-seq)和Hi-C等技术来确定各种表观遗传状态。最近,甚至有可能从单个细胞(通过单细胞测序/表观基因组学)获得这样的数据,从而能够在细胞水平上精确追踪一些更简单的生物体的整个发育过程。这种单细胞技术也有助于理解癌细胞的异质性:一种能够促进肿瘤生长的新的体细胞突变如何在肿瘤细胞群中发生;具有这种突变的细胞亚群如何随着肿瘤的生长而增殖;以及一些细胞是如何获得在体液中循环的能力,从而导致癌症扩散到远离其起源的身体部位(即转移)。事实上,即使在癌症的相对早期阶段,血液循环中也有来自肿瘤细胞的DNA碎片。以预测患者为目的而对这种DNA[无细胞DNA(cfDNA)]进行检测的技术被称为液体活检,它将彻底改变早期癌症检测。

④DNA测序不仅适用于纯化的DNA样本,也适用于混合DNA,即来自多个物种的DNA(宏基因组)。

。一个典型的例子是肠道细菌的宏基因组测序,由此我们可以估计肠道细菌的大致组成。众所周知,肠道细菌通过各种代谢产物(化合物)与人体发生作用,以多种方式影响人类的健康,所以这些信息对于了解人类健康是非常有价值的。因此,结合使用高通量质谱仪系统获得的代谢组数据,我们可以获得更精确的健康状况组合。

综上所述,NGS可以应用于生物医学的很多方面,人们会不断努力产生大量的真实数据(图2)。NGS的表现比摩尔定律提高得还要快(图1)。这种情况必须通过数据科学和人工智能来解决——事实上,这些技术应该引领生物医学,而不仅仅是帮助它解决问题。

图一。与摩尔定律相比,人类基因组测序成本的变化趋势。虚线代表摩尔定律,其绘制是随机的。

2.公共数据库中的NGS数据正以惊人的速度增长[美国国立卫生研究院(NIH),美国国家生物技术信息中心(NCBI)的序列阅读档案(SRA)数据库]。y轴以对数刻度表示数据库的大小。实线代表总库数,虚线代表开放库(即不限制数据下载)。截至2019年6月,SRA共有2.9×1016个库。

七。结论

大约20年前,当人类基因组计划启动时,笔者听到了生物学和天气预报之间一个有趣的类比:在我们的童年时代,天气预报是由经验丰富的专业人士完成的,但他们的预报并不十分可靠。如今,可以在多个网格点获得数据(如温度、湿度和气压)的组合,并输入到超级计算机中。因此,基于这些模拟结果的预测变得更加准确。同样,在大量点(如单个细胞)测量的精确数据的组合(如上面介绍的各种NGS数据)将用于计算和预测各种事情(如未来10年个体患病的潜在风险)。这些方法目前在多组学和/或精确医学的背景下被提及。科学和人工智能对于这些数据的全面解释和模拟都将至关重要。这些技术将表明需要什么额外的信息,以及需要什么样的实验来证明所产生的假设。所以,未来的10年对于生物医药来说,会更加精彩。

注:本文的呈现形式略有调整。如有需要,请查看原文。

改编自原著:

布拉德利·j·埃德尔曼,妮莎·约翰逊,阿巴斯·索拉博,唐善宝,尼提什·塔科尔,何斌。系统神经工程:理解并与大脑互动[J].工科,2015,1(3):292-308。

概述:人工智能-支持技术和支持社会

:通用智能本体

规划:人工智能+医疗健康

战略:人工智能+新制造模式和新商业形态

人工智能:起源于人,延伸到工作。

中国工程院学报

工程造福人类。

科技创造未来

微信官方账号ID:CAE-工程

注:论文反映研究成果进展,不代表《中国工程科学》杂志观点。

 
友情链接
鄂ICP备19019357号-22