杨风色来自奥菲斯qubit | QbitAI,微信官方账号
计算生物学的大明星AlphaFold又有重大突破。
它已经能够预测超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知的蛋白质。
从今天起,预测几乎所有已知蛋白质的结构就像使用搜索引擎一样简单。
而在一周前,最新的RD结果几乎同时来自国内外两家代表性企业。
互联网巨头meta更新蛋白质大模型ESMFold。它可以直接从单序列语言模型表示中预测出完整的蛋白质结构,精度与AlphaFold相当,推理速度快一个数量级。
由领衔的AI创新药明星公司华药也实现了最新突破:OmegaFold利用单一序列固定蛋白质的3D结构,即使人工设计蛋白质,也可以通过预测AI的3D结构来确定其功能。
世界各地都报道了最新进展,这在几年前是罕见的。
放眼近几年的世界,Google DeepMind和Nvidia相继布局。而且国内大厂经常展示新技术,学术界急于讨论生物界数字化,投资动作频繁…
在过去的一年里,投资金额翻了三倍,大量的创业公司在最近几年出现了爆炸式增长。
这些都证明了计算生物学的价值已经占据主导地位,它已经在制药、医疗等领域得到应用。
但更多人不知道的是,早在20世纪90年代初,这个赛道就已经成为生物领域的重要组成部分。
CMU大学、麻省理工学院、布朗大学等世界顶尖大学已经开设了这门课程。
在AlphaFold出现之前,已经有科学家断言所有的生物学都是计算生物学,但是一直没有被主流学术界接受。
毫无疑问,我们正处于一个全新的技术创新周期。只有计算生物学轨道被广泛认知。
在AI激活和数据的驱动下,它正从幕后走向台前,从实验室走向大规模应用的前夜...
现在,量子比特智库做了一个全球性的系统化,撰写了《计算生物学深度行业报告》,试图描述国内外的发展现状,以及这个行业面临的困难和机遇。
计算生物学正处于应用的前夜。
计算生物学,本质上是通过计算手段解决生物学问题。
具体来说,就是根据不同类型的生物数据构建算法和模型,从而了解生物系统本身,促进相关的研究和应用。
从应用划分来看,目前主要落地的领域有序列分析、结构与功能分析、生物分子动力学、系统建模、进化与群体基因组学、关联网络...
以AlphaFold2为例,它基于基因序列预测蛋白质的结构,属于结构与功能分析的范畴。
如你所见,计算生物学是一门工具性的学科。这在一定程度上决定了市面上并没有严格意义上的计算生物学公司,只是以AI制药、组学、精准医疗的名义出现。
这一点在中国尤为明显。
目前在国内以AI制药为核心场景。
不仅高校和互联网公司有相关的研究和布局。
相关创业公司在2017年至2021年呈现爆发式增长,且均已获得高额融资。
这种情况在国外也有体现。
浦发硅谷银行《医疗健康行业投资与退出趋势》报告显示,2021年计算生物学公司投资额达到59亿美元,一年增长3倍,是非计算生物学公司的两倍多。
从商业模式来看,整个行业以2B为主,主要是算法授权、生物资产和软件使用。
中国主要是前两种,但既然软件平台和开创性项目可以形成技术和商业迭代的闭环。
量子比特智库认为,在大量优越的自研算法出现后,软件平台的比重会明显增加。国外已经开始通过套餐订阅和按使用量计费来实现计算生物学服务的商业化。
为什么现在这么热?
事实上,在20世纪90年代后期,计算生物学开始成为生物学中非常重要的一部分。
国际计算生物学学会ISCB于1997年在美国成立,现在它已经发展成为一个拥有来自70多个国家的3200多名成员的组织。
如开头所述,在学术界,国外很多知名大学早就开设了计算生物学,甚至在本科阶段就开设了。例如,CMU是最早的一个,于1989年推出。学生必须学习各种生物以及算法设计和机器学习等计算机相关课程。
在国内,四川大学也于2014年以双学位的形式开设了第一个计算生物学本科专业。
略有不同的是,川大的这个专业是在生命科学学院下面,而CMU等国外高校是在计算机学院下面。
此外,还值得注意的是,在AlphaFold掀起浪潮之前,有科学家断言:
所有的生物学都是计算生物学。
他认为计算思维和技术对于理解生命至关重要。
但同时,他透露了2008年至2016年一直被质疑的经验:在数学和机器学习方面有经验的研究人员是否真的会对生物学有所贡献。
但是,AI或者说深度学习的出现,给计算生物学带来了转机。
量子智库今天分析了这个赛道爆炸的原因。
一是与近年来深度学习的爆发式增长有关;
第二,最近出现的AI for Science的概念,让计算生物学这个AI在生物学领域落地的标志成为一种趋势。AI与传统科研结合带来的巨大潜力,有望带来一场全新的科学革命;
第三,对于生物学本身来说,传统的实验和分析方法已经很难充分开发海量的生物学数据。确实需要计算生物学这种跨学科的工具来解决问题。
目前,具体的实验方法大多是基于现有的数据库和资源,利用成熟的工具解决具体问题,或者自行设计统计分析和数值计算方法。然而,计算生物学的出现使得干湿实验相结合的新方法开始走向主流。
那么,计算生物学能给生物学带来什么价值呢?
分为科研和应用。
在科学研究中,计算生物学最直接的作用就是替代甚至超越实验。
与操作水平、实验设备、观察水平等精度有限的传统生物学实验相比,基于计算机的计算生物学不仅成本更低、速度更快,而且理论上具有无限的计算精度和高度的可重复性。
计算生物学在AI模型中内化过去的经验后,可以自动、大规模、并行地做出假设,使研究人员不需要依赖少数人才,同时降低下游开发的门槛,有望对行业格局产生重大影响。
其次,是开辟一条“先假设-再验证-最后优化假设”的新路,让RD效率提高数倍。
早在1991年,《自然》杂志上就有一种观点认为,一种新的生物学研究方式的出发点应该是,科学家应该从理论推测出发,然后回到实验中去追踪或验证理论假设。
计算生物学恰恰可以开辟一条基于干湿循环实验的“假设-验证-优化假设”的新途径,提高生物研发的整体效率。
具体来说,一方面,实验室通过高通量的湿实验,在快速验证AI预测的同时,为AI模型提供大量可用的训练数据,提高AI预测模型的准确性。
另一方面,AI会基于自身的数据处理能力,提供可以在湿实验中验证的假设,两者都会迭代加速。
在AI制药领域,智能实验室已经成为公司长期竞争力的重要体现。智库认为,这种情况也将广泛应用于所有与计算生物学相关的行业。
根据流程,应用价值可分为三类:
首先是计算和推导生物学性质和原理,包括:蛋白质结构预测、致病机理研究、蛋白质相互作用预测、抗体和抗原的表位预测、基于基因组学寻找致病原因或新的生物标志物等。
这些研究的成功随访可用于获得新的药物靶点,为疾病治疗提供基本思路。
从多组学的角度来看,智库认为,在新的生物标志物的获取成本降低到消费水平后,有望催生一个类似甚至大于当前基因组学的产业格局,可能是蛋白质组学,也可能是正在发展的RNA组学。
二是构建预测和判断模型,包括:AI制药中基于靶标的化合物性质预测、疾病诊断/监测/治疗建模、覆盖细胞/器官/人体的生物模拟器等。
其中,生物模拟器的本质功能是验证特定疗法的有效性,可以简单理解为生物医学领域的数字双胞胎。
值得注意的是,这部分公司目前在国内还没有明确涉及,但国外已经出现了几家相关公司,实现该领域的核心业务。
智库提示,由于技术、数据、临床实验等原因的共同支撑,很容易在该领域形成竞争壁垒。
第三是控制和改造生物体,包括:新疗法/药物开发、精准医疗和生物制造。
其中,新疗法/药物研发是最成熟的场景。
精准医疗将成为计算生物学长期关注的焦点。这是因为C端市场消费意愿更高,在人体上应用广泛,产品形态相对直接。
在这个方向上,国外已经有很多基于多组学的布局,而国内相关公司相对较少,都是基于基因组学,有一定差距。
详细来说,癌症和基因组学的个性化治疗也将是精准医疗的第一场景。
总体而言,量子比特智库认为,以疾病诊断和AI制药为代表的生物模型的预测和判断,短期内将成为计算生物学应用价值的第一增长点。
然而,计算生物学产业的终极价值在于对生物体的控制和改造。
未来会怎样?
从现状分析,计算生物学产业至少还需要5年才能爆发商业化,目前还不好计算市场规模。
可以预见,未来计算生物学的产业链将由作为底层支撑的数据提供商和顶层的各类相关公司组成。
它的发展也将分为三个阶段:
2025年之前是基本沉淀期,计算生物学的发展会处于一个相当早期的阶段,会随着数据、设备、算法等基础条件的积累慢慢爬升。
2025-2030年,进入多点验证期。除了目前最常见的基因组学,更多的组学数据甚至跨组学将开始加速,计算生物学可以从更多的角度创造应用价值。
除了蛋白质结构预测的问题,下一个定义明确的问题是预期,更多的生物IT公司关注计算生物学领域。
2030年后开始全面发展。在此期间,计算生物学将呈指数增长,并成为生物技术领域必不可少的基础设施。相关应用场景普遍商业化,基于计算生物学的一系列应用也将在生物医学领域占据相当大的份额。
其中,智库预测计算生物学软件平台将产生可观的市场规模,该领域的研究问题将逐渐向系统化、底层化、更适合直接落地的方向发展。
目前,为了实现上述期望,年轻的计算生物学仍有以下关键瓶颈需要突破——有些问题是这个行业独有的,有些则存在于整个AI科学领域:
一个是生物学基本原理的定义。目前我们还有很多生物学的底层机制需要深入研究,所以需要在建模、生物验证、人体登陆中引入这些知识,减少领域认知的偏差,保证准确性。
第二是统一的计算和数据框架。基于微观手段,可以解决一些特定的生物学问题,但要最终落地,所需模型需要能够覆盖多个组学数据、多个环节和并行功能。
此外,还需要保证计算生物学中的各种异构数据,如图像、视频、分子图谱、DNA编码、基因表达、电信号等。,有明确的标准和通用的格式,以便不同算法和平台之间的互操作。
第三是消费者数据的获取。在分析人士看来,与基因组学相关的计算生物学的关键产业发展阶段是数据收集达到了消费者水平。
第四是项目的落地能力。目前很多机器学习算法和模型在学术上已经相当成熟。关键是如何加入对生物学的具体理解,用底层数据进行微调。
最后是数据隐私的问题,以及如何让相关模型具有可解释性,获得这个特殊行业的信任。
更多详情可以去量子微信官方账号下载报告全文。