本文选自中国工程院院刊《Engineering》2019年第5期
作者:郭力,邬俊,李静海
来源:Complexity at Mesoscales: A Common Challenge in Developing Artificial Intelligence[J].
Engineering,2019,5(5):924-929.
一、人工智能取得飞跃式发展,逐渐成为多学科共性化技术手段
近年来,各种突破性科技报道接踵而至。谷歌(Google)公司研制的阿尔法狗(AlphaGo)围棋程序相继战胜人类顶尖棋手李世石和柯洁;无人驾驶汽车安全行驶数百万公里,已在美国十余个州取得合法行驶权;图像和语音识别技术日臻成熟并广泛应用于智能相机和手机等日常消费品,给人们生活带来极大便利。由此,人工智能(artificial intelligence, AI)这一旧名词重回公众视线,并掀起新一轮的发展热潮。当下,人工智能已然上升为许多国家的重大发展战略,各国政府将其视为国家的核心竞争力。
人工智能涉及领域众多,有望成为跨学科研究的示范性工程,并进一步推动各领域的协同发展
。从1956年达特茅斯(Dartmouth)会议算起,
人工智能从诞生至今已逾一个甲子
,其主流技术发展大致经历了三个重要阶段:推理期、知识期、学习期
。1956年至20世纪70年代初,人工智能研究处于推理期,这一时期学者们主要研究基于规则的符号表示和推理模型,代表性成果是各种自动定理证明程序。然而,随着问题难度逐渐增加,人们意识到,机器仅依靠逻辑推理能力难以实现智能。于是一些学者将研究思路由一般思维规律探索转向了专门知识应用,人工智能研究由此进入了知识期。20世纪70年代初至80年代末,大量专家系统问世,在一些特定应用领域成效显著。但是,随着应用规模不断扩大,人们发现,把知识总结出来再教给机器非常困难。因此,一些学者主张让它从数据中自动学习知识,人工智能研究由此进入了学习期。20世纪90年代初至今,人工智能主要致力于机器学习理论和算法研究。机器学习不仅在图像识别、语音识别等传统人工智能任务上取得了突破性进展,同时还极大促进了其他学科的发展,诸如预测药物分子活性、分析粒子加速过程、重建大脑回路、探索外太空行星、自动诊断皮肤癌,以及预测非编码DNA变异对基因表达和疾病的影响等。
最新一轮的人工智能发展主要得益于三方面因素
。第一,数据采集、存储、传输技术的迅猛发展催生了大数据,进而为人工智能提供了充足的数据资源;
第二,强力计算设备(如GPU和CPU集群)的出现,以及并行计算技术的日趋成熟,为人工智能研究提供了算力保障;
第三,科研人员在构造大规模复杂模型方面积累了丰富的经验和技巧,使得以深度神经网络为代表的机器学习方法飞速发展,为人工智能提供了有效的技术途径。如今人工智能已成为多学科共性化技术手段。凡是涉及到数据分析需求的领域,就能用到人工智能。
二、深度学习大行其道、发展势头迅猛、涉及领域众多,然其物理机制尚不明晰
深度学习模型其实就是很多层的人工神经网络,为避免混淆,本文统一称之为深度神经网络,其结构如图1所示。
该模型包含三个主要部分:输入层、(多个)隐藏层、输出层
。输入层的每个节点对应输入数据的一个维度(如图像像素);输出层的每个节点对应一个决策变量(如图像语义类别);隐藏层由很多“神经元”互连而成,神经网络故此得名。图1. 深度神经网络样例。图中右下角处8幅图片来自ImageNet网站(http://www.image.net.org)
从生物机制来说,一个神经元接收其他神经元传送来的电位信号,当累计信号高于自身电位时,该神经元被激活并向外输出信号。该过程可形式化描述为:y=f(
w
Tx
+b),其中,x
=[x1, …,xn]T和y分别表示神经元接收到的多维信号和输出的一维信号,w
= [w1, …,wn]T表示输入信号的权重,b表示偏置量,f为激活函数。由此可见,深度神经网络本质上是一个简单函数通过多层嵌套而成的数学模型
。神经生理学仅起到启发作用,远不像媒体宣传的那样“深度神经网络是一种脑模拟计算”。实际上,大脑的工作原理目前尚未完全探明。当许多神经元按层次组合成深度神经网络后,
该模型相当于一个多层嵌套的复合函数
,每层对应一个非线性映射(前一层的输出信号作为下一层的输入信号),整个网络中的信号传送可形式化描述为:y=f{W1…f[W2f(W1x
+b
1) +b
2]…+b
L},其中,Wl和bl(l= 1, 2, …, L)分别表示网络第l层所对应的权重矩阵和偏置向量(即待求解的模型参数)。由于每层网络包含多个神经元,故而此处模型参数被封装表示为矩阵和向量形式。给定具体应用任务,深度神经网络首先要设计损失函数(用以度量网络实际输出与期望输出间的差异),然后采用反向传播(back propagation)算法优化损失函数并求解模型参数,以此学习数据的多层次抽象表示。据统计学习理论可知,一个模型的参数越多,其复杂度就越高,相应的学习能力也越强。
深度神经网络可通过“加宽”或“加深”网络结构两种方式提升模型复杂度
。相比之下,后者效果更好。因为“加宽”仅能增加基函数个数;而“加深”不仅可增加函数个数,还增加了函数嵌套的层数,从泛函表达上它的能力更强一些。因此,“深度”对提升模型复杂度和学习能力很有帮助。以计算机视觉领域的ImageNet竞赛为例,历届冠军所使用的神经网络越做越深,从7层的AlexNet到16层的VggNet 再到152层的ResNet 。目前最深的神经网络甚至达到了上千层,模型参数多达几十亿。值得注意的是,
如何设计“合适的”网络结构是决定深度神经网络应用成功与否的关键
。现有的网络结构设计大多是由专家手动完成,这是一个非常耗时且容易出错的过程。近年来,诸多学者在自动机器学习(AutoML)领域开了大量工作,特别是在自动神经结构搜索(network architecture search, NAS)方面取得了一些研究进展。NAS的思路是定义了一个理论上包含了所有网络结构的搜索空间,然后在这个搜索空间中采用贝叶斯优化、强化学习或神经进化学习等方法寻找可在未见数据上表现出良好预测性能的网络结构。虽然深度神经网络取得了诸多成功,但其模型的可解释性问题始终悬而未决
。研究人员使用深度神经网络对实际问题建模时,完全将其视为“黑箱”,关注点主要集中在“黑箱”的输入端和输出端;网络结构设计完全依靠科研人员的经验和直觉,未能与其待求解问题的物理背景挂钩。尽管深度神经网络的计算过程可以给出清晰的数学表达,但很难从物理意义层面对其解释,模型缺少反映问题本质的物理内涵。即使AutoML技术有助于在预测性能方面找到“更好”的神经网络结构,但它仍然无法从物理层面上得到解释。人们曾尝试针对一些具体应用任务对深度神经网络给予解释。以图像识别为例,研究人员对深度卷积神经网络(convolutional neural network, CNN)进行反卷积操作,试图可视化每个隐藏层学到的视觉特征,以期对图像识别过程给予解释。但是,这种启发性的解释不具有普适性,难以推广至其他深度神经网络的应用案例,未能深刻揭示模型背后的物理机制。可解释性问题将成为阻碍深度神经网络进一步发展的瓶颈。
三、介科学有望成为揭示深度学习物理机制以及进一步推动人工智能发展的可行思路
如何将深度神经网络设计与待解决问题的物理机制相关联,是人工智能是否能够取得突破性进展的关键
。而物理机制的普适性则决定了人工智能的适用范围,也是未来人工智能必须突破的根本性问题。介科学的核心思想是:复杂性起源于系统中两种以上作用机制的竞争与协调,从而产生复杂的时空动态结构
。而人工智能研究的系统无一不是复杂系统。将介科学的原理和方法引入人工智能(目前主要是指以深度神经网络为代表的机器学习技术)中,对需要解决的问题以介科学的原理进行思考和分析,并在深度神经网络中应用,或许是解决上述问题的一个可行思路。介科学从研究化学工程领域中的气固系统入手,并逐渐应用于气液系统、湍流、蛋白质结构、催化等问题的研究中,逐步归纳出了共同的规律
。其要点可归纳如下:复杂问题总是多层次的,不同层次相互关联;每一层次又是多尺度的,由无数单元构成一个系统;介于单元和系统之间,往往出现由于单元群体效应而产生的时空多尺度动态结构;这种结构随边界和外部条件的变化,会出现(以两种机制控制的系统为例)三个有完全不同属性的区域。A-B区域:这个区域由A和B两个机制共同控制,称为介区域。该区域的结构交替显现两种状态,由A和B的竞争中的协调控制,此时系统结构符合:
A区域:
当外部条件变化时
,B作用消失,A单独控制该系统,此时系统结构特征简单,符合:A= min
B区域:
当外部条件向反方向变化
,A作用消失,B单独控制该系统,此时系统结构符合:B= min
最为重要的是,A、A-B、B区域之间的转变往往伴有系统特征和性能的突变。
深度神经网络所面对的问题往往是复杂系统,系统的输出与输入之间的关联关系通常是复杂的多变量非线性关系。
采用介科学理论对复杂系统的认识来审视现有的深度神经网络,可以提出如下 “基于介科学的人工智能”研究与应用范式
:假设有一个庞大的训练数据集,希望通过深度学习技术建立表达其内在规律的模型,
根据介科学的概念和逻辑,可以采取如下步骤
:(1)分析这些数据涉及几个层次;
(2)对每一个层次进行分析是否存在三个区域;
(3)如属于A或B区域,结构很简单,采用现有深度学习技术即可解决;
(4)如处于A-B介区域,即系统有显著的时空动态结构,则要分析其控制机制,采取考虑结合两种机制的多目标变分模型进行训练建模;
(5)对每一层次进行分析后,再进行几个层次的关联。
分析上面的步骤,对于属于A或B区域的问题,从介科学的角度观察,其极值条件较为简单,因此用现有深度学习技术即可快速迭代到解,建立数学模型;对于位于A-B介区域的问题,输入数据与输出结果之间的关联关系是由多个机制共同控制的,因此使用原有的技术需要仔细调整网络的参数,并且需要花费比较长的时间才能最终建立模型。此时若按照介科学的思想进行机制分解,并针对不同控制机制的变化趋势采用多目标变分方法,与经典的反向传播算法相耦合,可以较快速地迭代到满足误差条件的解。
对于需要采用深度学习方法解决的复杂系统问题,若能首先在物理层面分析其控制机制,再按照上述步骤建立模型,不但可加速求解,同时有利于更深刻地理解系统的物理本质,也有利于从物理的角度对所建立的模型进行分析和解读。
上面将区域分解、控制机制辨识及多目标变分等介科学的核心思想和方法引入到深度学习技术中,可望实现一种通用的处理方法,克服现有人工智能存在的一些问题
。四、介科学可改进人工智能的问题求解范式
基于深度神经网络的人工智能理论和应用研究的基本流程
如图2所示。其大致过程为:图2. 现有的人工智能研究与应用流程示意图
(1)
收集训练数据
:从应用场景(往往是复杂系统)中采集(足够多的)数据,若涉及有监督学习还需对数据进行标注;(2)
构造深度神经网络
:选择适当的网络结构、优化目标及算法,通过训练得到可有效描述数据集潜在模式的统计模型;(3)
应用模型
:将训练好的模型对新数据进行预测。上述流程的核心是构建深度神经网络
,但目前受限于人工神经网络自身的“黑箱”问题,研究人员只能凭借经验和直觉设计深度神经网络。为此,本文借鉴介科学理论方法对该流程进行改进,进而得到如图3所示的新流程。图3. 引入介科学的人工智能研究与应用流程示意图
在图2和图3中,
解决复杂系统的复杂问题是人工智能的目标,同时它也为人工智能提供应用场景和海量数据集
。人脑是一种特殊的复杂系统,脑科学研究人类思维的物质基础和机制,是人工智能未来发展的重要基础,对于复杂系统认识的提高,也将促进脑科学的发展。当前深度神经网络的成功可以看作仅是数学上的成功,未来如果能把脑科学的研究成果融入人工智能中,必然会大大推动人工智能的研究和应用。脑科学家试图揭示人类大脑的秘密,不但从生理解剖方面、而且要从思维的发生发展机制上进行研究,从而可以了解思维和智能是如何发生和应用的,进而将这些知识与IT软硬件技术结合,试图构造出能与人类大脑相媲美的“人造大脑”;而另一方面,所有人的大脑构造和功能几乎一致,但是显然不同的人运用大脑解决问题的能力是不同的,其中的关键是人在接受了相应的教育和训练之后,在面对问题时,将对问题物理本质的了解与大脑的推理、归纳等能力相结合,才能在有限的时间内得到正确的结果。因此,
人工智能解决实际问题的能力应该取决于脑科学和IT技术的发展、对问题物理本质的了解和应用,以及这三者之间有效的集成和耦合
。尽管介科学理论来源于化学工程领域,但它的基本原理在其他的复杂系统中也同样适用。
介科学的核心思想是发现系统中的多层次关联和多尺度耦合,从中寻找不同层次的介区域和控制机制,用多目标变分的数学方法寻求各控制机制在竞争中协调的规律,以此来解决系统的问题
。在图3所示的新研究范式中,介科学对学习方法的改进、对模型的优化,以及对相关的计算硬件和计算方法的优化等方面可以发挥重要的作用。从介科学理论到人工智能,需要研究的问题和克服的困难还有很多
。比如,Google的 AlphaGo Fan所采用的核心技术是深度强化学习(deep reinforcement learning),它融合了深度学习的感知能力和强化学习的决策能力,从而能战胜人类围棋世界冠军。AlphaGo结合深度强化学习技术和蒙特卡罗树搜索策略,通过价值网络(value network)来评估棋局当前的局面以减小搜索深度,使用策略网络(policy network)来降低搜索宽度,从而大幅提高搜索效率。AlphaGo是深度强化学习技术的一个成功的应用实例。从系统结构上分析深度强化学习技术,可分成成千上万个感知机→若干深度学习网络→深度强化学习策略三个层次,正好与介科学理论中复杂系统的单元尺度→介尺度→系统尺度的分层相吻合,是否可以将介科学理论中有关的分析方法与手段直接应用到深度强化学习技术中是一个值得深入研究的问题。值得注意的是,DeepMind开发了四个AlphaGo版本:Fan、Lee、Master和Zero。早期版本的AlphaGo,如Fan和Lee 都是通过有监督学习和强化学习来训练的,最新版本的AlphaGo Zero则完全是没有使用任何人类的棋局和知识,仅通过自我对弈来进行强化学习而完成训练,并且只使用了一个深层神经网络,而不像早期那样使用了策略网络和价值网络两个网络。
在本文我们仅以AlphaGo Fan为例的原因有二
:首先,AlphaGo Fan是最复杂的版本,由于本文聚焦于分析复杂系统,因此AlphaGo Fan是四个版本中最典型的一个;其次,无论策略网络和价值网络是分离的(如AlphaGo Fan和Lee)还是合并的(如AlphaGo Zero),按照介科学的原理来分析,它们都属于介尺度的层次。再比如,生成式对抗网络(generative adversarial networks, GAN)是目前应用比较成功的深度学习模型,它通过生成模型(generative model)和判别模型(discriminative model)的互相博弈来进行预测学习。GAN的最终目标是在判别模型的帮助下,由生成模型产生出与真实数据分布一致的伪数据。这两个模型分别有自己的目标:生成模型试图生成可以骗过判别模型的数据结果,判别模型努力将生成模型产成的数据与真实数据进行区分。在GAN的建立过程中,两个模型互相牵制,都尽量引向对自己有利的方向。最后在GAN总目标函数的约束下,两者达到平衡和互相妥协。由此可以看出,在GAN中两种模型的行为可以用介区域中的A、B两种控制机制来类比,所以GAN的训练就是这两种模型(机制)在互相竞争中进行协调的过程,因此
介科学的相关研究成果或许可以直接应用到这个过程中,以加速GAN的建立和应用
。通过对近几年人工智能和大数据技术所取得的进展进行分析,可以得到如下两个结论
:①随着脑科学的不断发展,逐步揭示出人脑的工作机制,
只有将脑科学的这些成果加以应用,人工智能才有希望取得突破性进展
;②大数据具有内在的复杂性本质,要想在大数据中发现规律,建立数学模型,从而构建符合客观规律的物理模型,
关键的问题在于找到形成其复杂性的物理机制
。上述两个方面在逻辑上是一致的,即探索复杂系统的物理机制并加以有效运用,是解决复杂系统问题的关键。本文提出将介科学的思想和方法用于人工智能,也正是体现了这一逻辑。
五、结语
大数据的出现与计算硬件的进步,使得以深度学习为代表的人工智能理论方法及其在诸多领域的应用研究取得了突破性进展。但囿于深度学习的自身固有问题,其模型的可解释性较差。介科学虽源自化学工程领域,但其分析方法,诸如多层次、多尺度,以及在介尺度和介区域中控制机制在竞争中协调的原理等,同样适用于其他领域的复杂系统,近年来已在多个领域中获得了较好应用效果。
介科学有望为改善深度学习的可解释性提供新思路和新方法。
本文所提出的“基于介科学的人工智能”目前只是个初步研究思路,进一步验证和扩展还需要各学科领域研究人员的共同努力,特别是针对具体实例的探索。
注:本文内容呈现形式略有调整,若需可查看原文。
改编原文:
Li Guo, Jun Wu, Jinghai Li.Complexity at Mesoscales: A Common Challenge in Developing Artificial Intelligence[J].Engineering,2019,5(5):924-929.
作者介绍
李静海
,化学工程专家,中国科学院院士。主要从事颗粒流体两相系统量化设计和放大的研究。提出基于颗粒尺度、颗粒聚团尺度和设备尺度的多尺度分析方法和两相非均匀结构应满足的稳定性条件,建立了具有普遍意义的能量最小多尺度(EMMS)模型,并将其扩展到径向分布的计算和两态共存临界条件的确定。阐明两因素控制的流动系统中控制机制之间的协调导致有序结构,表达了其稳定性条件与各控制机制极值趋势之间的关系。将这一方法推广到其他系统,并应用于工业计算。此外,还在计算机仿真和洁净煤技术方面开展了工作,开发了中小型设备中抑制氮氧化物的无烟燃煤技术,并推广应用。
前沿研究:探索知识体系的逻辑与架构:多层次、多尺度及介尺度复杂性
前沿综述:人工智能——使能技术、赋能社会
:通用智能本体
前瞻规划:人工智能+医药健康
战略研究:人工智能+制造业新模式与新业态
人工智能:源于人、拓于工
中国工程院院刊
工程造福人类
科技开创未来
微信公众号ID :CAE-Engineering
说明:论文反映的是研究成果进展,不代表《中国工程科学》杂志社的观点。