深度研报:人工智能机器人开启第四次科技革命

核心提示在互联网红利基本散尽的时代,未来到底属于web3、元宇宙,还是碳中和?到底什么样的革命性技术可以引领人类社会走出经济衰退、疫情和战争的影响,并将全球经济体量再向上推动数十倍?我们的答案是,我们早已处于人工智能时代之中。本报告由势乘资本和光锥
在互联网红利基本散尽的时代,未来到底属于web3、元宇宙,还是碳中和?到底什么样的革命性技术可以引领人类社会走出经济衰退、疫情和战争的影响,并将全球经济体量再向上推动数十倍?
我们的答案是,我们早已处于人工智能时代之中。

本报告由势乘资本和光锥智能联合发布

本报告成文于2022年5月

互联网已经是传统行业。

互联网技术作为过去30年最先进的生产力要素,改变了全球的所有人、所有产业、社会经济,甚至是政治、军事、宗教。

虽然互联网的技术红利已基本用尽,但我们仍可通过研究其历史规律,来预测未来新技术发展的可能路径。

30年的互联网发展历程总体可分为桌面互联网和移动互联网两个时代,按产业渗透规律,又可分为 信息互联网、消费互联网产业互联网 三大阶段。

系统硬件都是最先起步,包括底层芯片、操作系统、联网通信、整机等,进而初步向媒体工具、文娱游戏行业渗透,因为这些领域最易受新技术的影响。当2002年中国网民达到6000万人,2012年中国智能手机出货量达到2亿部之后 ,互联网和移动互联网开始全面开花,渗透变革了直接to C的众多行业,如零售消费、交通出行、教育、金融、汽车、居住、医疗等。而当用户量进一步上涨、新技术的渗透进一步加深,企业服务、物流、制造、农业、能源等to B产业被影响。

而这个过程中可以发现,移动互联网时代对产业的渗透深度比桌面互联网更深,桌面互联网介入行业基本停留在信息连接层面,而到移动互联网时代,众多掌握先进技术要素的公司开始自己下场开超市、组车队、重构教育内容和金融机构,甚至是卖房、造车。也有些公司虽然诞生在桌面时代,但成功抓住移动爆发红利杀出重围,比如美团、去哪儿、支付宝。

抖音的崛起是中国移动互联网时代的最大变数,也是数据通信传输技术不断提升的必然,引发了用户流量结构的重组,进而催生了一大批抓住抖音流量红利崛起的消费品牌,如完美日记、花西子等等。但最终都逃不过被平台收割的命运,就像当年淘品牌的结局一样。微信支付、支付宝的普及极大推动了线下连锁零售的数字化程度和管理半径,减少了上下游现金收款产生的风险,促使其在资本市场被重新认可,连锁化率进一步提升,比如喜茶、瑞幸、Manner等等。这两条逻辑共同构成了过去几年的消费投资热潮主线。

早在第一次科技革命之前260年,哥伦布地理大发现就使西班牙成为了第一个全球化霸主。蒸汽机驱动英国打败西班牙无敌舰队,电力和两次世界大战使美国超过英国,信息技术又让美国赢得和苏联的冷战对抗,全球过了30年相对和平的单极霸权格局。

因此中国如果仅在现有技术框架中与欧美竞争,只会不断被卡脖子,事倍功半。只有引领下一代人工智能和碳中和能源技术科技革命浪潮,才能从全球竞争中胜出。

尽管中国已经跻身人工智能领域的大国,但是我们必须认识到中美之间在AI领域仍然有着明显的差距。从投资金额和布局上看,从2013年到2021年,美国对人工智能公司的私人投资是中国的2倍多。 当前美国AI企业数量领先中国,布局在整个产业链上,尤其在算法、芯片等产业核心领域积累了强大的技术创新优势。更关键的是,尽管近年来中国在人工智能领域的论文和专利数量保持高速增长,但中国AI研究的质量与美国仍然有较大差距(集中体现在AI顶会论文的引用量的差距上)。

因此,中国需要持续加大在AI领域的研发费用规模,特别是加大基础学科的人才培养,吸引全世界优秀的AI人才。只有这样,中国才能有朝一日赶超美国,在基础学科建设、专利及论文发表、高端研发人才、创业投资和领军企业等关键环节上的拥有自己的优势,形成持久领军世界的格局。

人工智能的概念第一次被提出是在1956年达特茅斯夏季人工智能研究会议上。当时的科学家主要讨论了计算机科学领域尚未解决的问题,期待通过模拟人类大脑的运行,解决一些特定领域的具体问题(例如开发几何定理证明器)。

那么到底什么是人工智能?目前看来,Stuart Russell与Peter Norvig在《人工智能:一种现代的方法》一书中的定义最为准确: 人工智能是有关“智能主体(Intelligent agent)的研究与设计”的学问,而“智能主体”是指一个可以观察周遭环境并做出行动以达致目标的系统。 这个定义既强调了人工智能可以根据环境感知做出主动反应,又强调人工智能所做出的反应必须达成目标,同时没有给人造成“人工智能是对人类思维方式或人类总结的思维法则的模仿”这种错觉。

到目前为止,人工智能一共经历了三波浪潮。

第一次AI浪潮与图灵和他提出的“图灵测试”紧密相关。 图灵测试刚提出没几年,人们似乎就看到了计算机通过图灵测试的曙光:1966年MIT教授Joseph Weizenbaum发明了一个可以和人对话的小程序——Eliza(取名字萧伯纳的戏剧《茶花女》),轰动世界。但是Eliza的程序原理和源代码显示,Eliza本质是一个在话题库里通过关键字映射的方式,根据人的问话回复设定好的答语的程序。不过现在人们认为,Eliza是微软小冰、Siri、Allo和Alexa的真正鼻祖。图灵测试以及为了通过图灵测试而开展的技术研发,都在过去的几十年时间里推动了人工智能,特别是自然语言处理技术(NLP)的飞速发展。

第二次AI浪潮出现在1980-1990年代,语音识别(ASR)是最具代表性的几项突破性进展之一。 在当时,语音识别主要分成两大流派:专家系统和概率系统。专家系统严重依赖人类的语言学知识,可拓展性和可适应性都很差,难以解决“不特定语者、大词汇、连续性语音识别”这三大难题。而概率系统则基于大型的语音数据语料库,使用统计模型进行语音识别工作。中国学者李开复在这个领域取得了很大成果,基本上宣告了以专家系统为代表的符号主义学派(Symbolic AI)在语音识别领域的失败。通过引入统计模型,语音识别的准确率提升了一个层次。

第三次AI浪潮起始于2006年,很大程度上归功于深度学习的实用化进程。 深度学习兴起建立在以Geoffrey Hinton为代表的科学家数十年的积累基础之上。简单地说,深度学习就是把计算机要学习的东西看成一大堆数据,把这些数据丢进一个复杂的、包含多个层级的数据处理网络(深度神经网络),然后检查经过这个网络处理得到的结果数据是不是符合要求——如果符合,就保留这个网络作为目标模型;如果不符合,就一次次地、锲而不舍地调整网络的参数设置,直到输出满足要求为止。本质上,指导深度学习的是一种“实用主义”的思想。实用主义思想让深度学习的感知能力(建模能力)远强于传统的机器学习方法,但也意味着人们难以说出模型中变量的选择、参数的取值与最终的感知能力之间的因果关系。

需要特别说明的是,人们往往容易将深度学习与“机器学习”这一概念混淆。事实上,在1956年人工智能的概念第一次被提出后,Arthur Samuel就提出: 机器学习研究和构建的是一种特殊的算法而非某一个特定的算法,是一个宽泛的概念,指的是利用算法使得计算机能够像人一样从数据中挖掘出信息;而深度学习只是机器学习的一个子集,是比其他学习方法使用了更多的参数、模型也更加复杂的一系列算法。 简单地说,深度学习就是把计算机要学习的东西看成一大堆数据,把这些数据丢进一个复杂的、包含多个层级的数据处理网络(深度神经网络),然后检查经过这个网络处理得到的结果数据是不是符合要求——如果符合,就保留这个网络作为目标模型,如果不符合,就一次次地、锲而不舍地调整网络的参数设置,直到输出满足要求为止。 本质上,指导深度学习的是一种“实用主义”的思想。 实用主义思想让深度学习的感知能力(建模能力)远强于传统的机器学习方法,但也意味着人们难以说出模型中变量的选择、参数的取值与最终的感知能力之间的因果关系。

二、AI的三大基石解析

如前所述,人工智能由表及里可分为应用层、数据层、算法层和算力层。

1.算力

算力层包括具备计算能力硬件和大数据基础设施。回顾历史我们就会发现,历次算力层的发展都会显著推动算法层的进步,并促使技术的普及应用。 21世纪互联网大规模服务集群的出现、搜索和电商业务带来的大数据积累、GPU和异构/低功耗芯片兴起带来的运算力提升,促成了深度学习的诞生,促成了人工智能的这一波爆发。 而AI芯片的出现进一步显著提高了数据处理速度:在CPU的基础上,出现了擅长并行计算的GPU,以及拥有良好运行能效比、更适合深度学习模型的现场可编程门阵列(FPGA)和应用专用集成电路(ASIC)。

三代MOSFET的栅极结构演化。其中灰色代表电流流经区域,绿色代表充当闸门的栅极

芯片结构的改变直接导致了芯片制造步骤的增加,最终体现为成本的上升。 在2012年28nm工艺的时候,处理器的生产大概需要450步。到了2021年的5nm工艺时,生产环节已经增加到了1200步。对应到每1亿个栅极的制造成本上,我们从图中可以清楚地看到,从90 nm 工艺到7nm工艺,生产成本先下降后上升。 这就使得摩尔定律的另一种表述形式——“同样性能的新品价格每18-24个月减半”不再成立。 未来我们很可能见到的情况是,搭载了顶级技术和工艺生产出来的芯片的电子产品或设备价格高昂,超过了一般消费者的承受力度。

Chiplet技术

Chiplet技术的原理有点类似搭积木,简单来说就是把一堆小芯片组合成一块大芯片。这种技术能够以较低的成本制造过于复杂的芯片,并且保证足够优秀的良率,从2012年开始就逐步被使用。 当前Chiplet技术已经能够在二维平面上实现用不同的材料和工艺加工拼接的小核心 ,Intel等公司正在把Chiplet技术引入新的阶段发展:在垂直方向上堆叠多层小核心,进一步提升芯片的性能(例如Intel于2018年开发的Foveros 3D Chiplet)。不过Chiplet技术路线面临的最大问题来源于芯片热管理方面:如果在三维结构上堆叠多层小核心,传统的通过CPU顶部铜盖一个面散热的方案将无法解决发热问题,因此可能需要在芯片的内部嵌入冷却装置来解决发热功率过高的问题。

碳纳米管技术

使用碳纳米管可能是另一个短期解决方案。这项技术属于碳基芯片领域,具体来说就是用碳纳米管承担芯片里基础元件开关的功能,而不是像传统芯片一样使用掺杂的半导体硅来传输电子。这种技术的优势在于导电性好、散热快、寿命长,而且由于其本质上仍然保留了冯·诺依曼架构,当前的生产工艺、产业链等匹配设施都不需要做出太大的调整。但是目前碳纳米管的大规模生产和应用还有一些困难,距离把碳纳米管按照芯片设计的要求制造出来可能还需要几十年。

短期内,围绕Chiplet技术在热管理方面的探索,和碳纳米管技术的灵活生产制造突破是算力层面上我们重点关注的机会。 当然,我们也要了解目前类脑芯片、存算一体和量子计算等终局解决方案的相关情况。这里为大家简单介绍如下:

类脑芯片

类脑芯片的灵感源于人脑。类脑芯片和传统结构的差异体现在两方面:第一,类脑芯片中数据的读取、存储和计算是在同一个单元中同时完成的,也即“存算一体”;第二,单元之间的连接像人类神经元之间的连接一样,依靠“事件驱动。

目前,类脑芯片的相关研究分为两派。一派认为需要了解清楚人脑的工作原理,才能模仿人类大脑设计出新的结构。但是目前人类对人脑的基本原理理解得仍然很粗浅,因此这一派取得的进展相当有限。另外一派则认为,可以先基于当前已有的生物学知识,比照人脑的基础单元设计出一些结构,然后不断试验、优化、取得成果,实现突破。目前这一派的研究人员依照神经元的基础结构,给类脑芯片做了一些数学描述,也搭建了模型,并且做出了不少可以运行的芯片。

存算一体

存算一体可以简单被概括为“用存储电荷的方式实现计算”,彻底解决了冯诺依曼结构中“存储”和“计算”两个步骤速度不匹配的问题(事实上,在以硅为基础的半导体芯片出现之后,存算速度不匹配的情况就一直存在)。存算一体机构在计算深度学习相关的任务时表现突出,能耗大约是当前传统计算设备的百分之一,能够大大提升人工智能的性能。除此之外,这种芯片在VR和AR眼镜等可穿戴设备上有广阔的应用前景,也能推动更高分辨率的显示设备价格进一步降低。

目前,存算一体仍然有两个问题没有突破:第一是基础单元(忆阻器)的精度不高,其次是缺少算法,在应对除了矩阵乘法以外的计算问题时表现远不如冯·诺依曼结构的芯片。

量子计算

量子计算是用特殊的方法控制若干个处于量子叠加态的原子,也叫作“量子”,通过指定的量子态来实现计算。量子计算机最适合的是面对一大堆可能性的时候,可以同时对所有可能性做运算。为了从所有的结果中找一个统计规律,我们需要使用量子计算机进行多次计算。不过由于退相干的问题,量子计算很容易出错。目前量子计算的纠错方法有待突破,只有解决了这个问题量子计算才可能被普遍使用。

当前量子计算机体积过大、运行环境严苛、造价昂贵。目前来看量子计算与经典计算不是取代与被取代的关系,而是在对算力要求极高的特定场景中发挥其高速并行计算的独特优势。中科大的量子物理学家陆朝阳曾总结道,“到目前为止,真正可以从量子计算中受益的实际问题仍然非常有限,享受指数级加速的就更少了——其他的仅有更有限的加速”。

总体而言,量子计算机的相关成果都只停留在科学研究的阶段,距离实际应用还很遥远。

2.算法

算法层指各类机器学习算法。如果根据训练方法来分类,机器学习算法也可以分成“无监督学习”、“监督学习”和“强化学习”等。按照解决问题的类型来分,机器学习算法包括计算机视觉算法(CV)、自然语言处理算法(NLP)、语音处理和识别算法(ASR)、智慧决策算法(DMS)等。每个算法大类下又有多个具体子技术,这里我们为大家简单介绍:

2.1 计算机视觉

计算机视觉的历史可以追溯到1966年,当时人工智能学家Minsky要求学生编写一个程序,让计算机向人类呈现它通过摄像头看到了什么。到了1970-1980年代,科学家试图从人类看东西的方法中获得借鉴。这一阶段计算机视觉主要应用于光学字符识别、工件识别、显微/航空图片的识别等领域。

到了90年代,计算机视觉技术取得了更大的发展,也开始广泛应用于工业领域。 一方面是由于GPU、DSP等图像处理硬件技术有了飞速进步;另一方面是人们也开始尝试不同的算法,包括统计方法和局部特征描述符的引入。 进入21世纪,以往许多基于规则的处理方式,都被机器学习所替代, 算法自行从海量数据中总结归纳物体的特征,然后进行识别和判断。 这一阶段涌现出了非常多的应用,包括相机人脸检测、安防人脸识别、车牌识别等等。

2010年以后,深度学习的应用将各类视觉相关任务的识别精度大幅提升,拓展了计算机视觉技术的应用场景:除了在安防领域应用外,计算机视觉也被应用于商品拍照搜索、智能影像诊断、照片自动分类等场景。

与语音识别紧密关联的是语音处理。语音处理为我们提供了语音转文字、多语言翻译、虚拟助手等一系列软件。一个完整的语音处理系统,包括 前端的信号处理、中间的语音语义识别和对话管理 (更多涉及自然语言处理),以及后期的 语音合成

前端信号处理:语音的前端处理涵盖说话人声检测、回声消除、唤醒词识别、麦克风阵列处理、语音增强。

语音识别:语音识别的过程需要经历特征提取、模型自适应、声学模型、语言模型、动态解码等多个过程。

语音合成:语音合成的几个步骤包括文本分析、语言学分析、音长估算、发音参数估计等。基于现有技术合成的语音在清晰度和可懂度上已经达到了较好的水平,但机器口音还是比较明显。目前的几个研究方向包括如何使合成语音听起来更自然、如何使合成语音的表现力更丰富,以及如何实现自然流畅的多语言混合合成。

2.3 自然语言处理

早在1950年代,人们就有了自然语言处理的任务需求,其中最典型的就是机器翻译。到了1990年代,随着计算机的计算速度和存储量大幅增加、大规模真实文本的积累产生,以及被互联网发展激发出的、以网页搜索为代表的基于自然语言的信息检索和抽取需求出现,自然语言处理进入了发展繁荣期。 在传统的基于规则的处理技术中,人们引入了更多数据驱动的统计方法,将自然语言处理的研究推向了一个新高度。

进入2010年以后,基于大数据和浅层、深层学习技术,自然语言处理的效果得到了进一步优化,出现了专门的智能翻译产品、客服机器人、智能助手等产品。这一时期的一个重要里程碑事件是IBM研发的Watson系统参加综艺问答节目Jeopardy。机器翻译方面,谷歌推出的神经网络机器翻译(GNMT)相比传统的基于词组的机器翻译(PBMT),在翻译的准确率上取得了非常强劲的提升。

2.5 算法的发展趋势和面临的瓶颈

近年来。处在机器学习也产生了几个重要的研究方向,例如从解决凸优化问题到解决非凸优化问题,以及从监督学习向非监督学习、强化学习的演进:

从解决凸优化问题到解决非凸优化问题

目前机器学习中的大部分问题,都可以通过加上一定的约束条件,转化或近似为一个凸优化问题。凸优化问题是指将所有的考虑因素表示为一组函数,然后从中选出一个最优解。而凸优化问题的一个很好的特性是局部最优就是全局最优。这个特性使得人们能通过梯度下降法寻找到下降的方向,找到的局部最优解就会是全局最优解。

然而在现实生活中,真正符合凸优化性质的问题其实并不多,目前对凸优化问题的关注仅仅是因为这类问题更容易解决。人们现在还缺乏针对非凸优化问题的行之有效的算法。

从监督学习向非监督学习、强化学习的演进

目前来看,大部分的AI应用都是通过监督学习,利用一组已标注的训练数据,对分类器的参数进行调整,使其达到所要求的性能。但 在现实生活中,监督学习不足以被称为“智能”。 对照人类的学习过程,许多都是建立在与事物的交互中,通过人类自身的体会、领悟,得到对事物的理解,并将之应用于未来的生活中。 而机器的局限就在于缺乏这些“常识”。

无监督学习领域近期的研究重点在于“生成对抗网络”(GANs),而强化学习的一个重要研究方向在于建立一个有效的、与真实世界存在交互的仿真模拟环境,不断训练,模拟采取各种动作、接受各种反馈,以此对模型进行训练。

从“堆数据”到研发低训练成本的算法

图像分类、物体识别、语义问答等多个领域AI算法准确率及对应所需算力、单模拟量传感器、矩阵传感器。

射频识别(RFID)传感器:可以提供识别码并允许得到许可的机器人获取其他信息。

声学传感器(麦克风):帮助机器人接收语音命令并识别熟悉环境中的异常声音。如果加上压电传感器,还可以识别并消除振动引起的噪声,避免机器人错误理解语音命令。先进的算法甚至可以让机器人了解说话者的情绪。

湿温度传感器:是机器人自我诊断的一部分,可用于确定其周遭的环境,避免潜在的有害热源。利用化学、光学和颜色传感器,机器人能够评估、调整和检测其环境中存在的问题。

运动稳定性感知:对于可以走路、跑步甚至跳舞的人形机器人,稳定性是一个主要问题。它们需要与智能手机相同类型的传感器,以便提供机器人的准确位置数据。在这些应用采用了具有3轴加速度计、3轴陀螺仪和3轴磁力计的9自由度(9DOF)传感器或惯性测量单元(IMU)。

传感器微型化趋势:过去传感器的性能与体积往往成正比,限制了其在机器人领域应用。芯片制程技术提升使微型传感器的制造成为可能,从而广泛应用于机器人领域。

(3)多传感器融合是未来趋势

多传感器信息融合技术是近年来十分热门的研究课题,指综合来自多个传感器的感知数据, 经过融合的多传感器系统能够更加完善、精确地反映检测对象的特性, 消除信息的不确定性 ,提高信息的可靠性。融合后的多传感器信息具有以下特性 : 冗余性、互补性、实时性和低成本性。

多传感器信息融合方法主要有贝叶斯估计、Dempster-Shafer 理论、卡尔曼滤波 、神经网络 、小波变换等。

2.决策 —— 机器人大脑

机器人决策我们认为是最具场景差异化的部分,因为不同职业场景下的工作方式、思维逻辑是大相径庭的;在机器人算法与决策方面的创业团队需要非常熟悉场景需求,提炼出标准化的操作流程,然后应用于机器人软硬件控制中。

想要让机器人解决问题我们需要完成三个步骤:第一, 明确问题的方向和边界 ;第二, 建立数学模型 ;最后, 找到合适的算法解决问题 。这里我们重点讨论将复杂的现实问题转化为数学语言的“建模”过程和选择算法的过程。

建模的第一步需要确定假设。我们需要先明确想让机器人做出什么样精度的决策,以及能否实现,从而确定需要考虑和舍弃哪些要素。在确定了重要变量和核心关系后,我们就把复杂的现实问题转化成计算机可以理解、算法可以处理的数学问题。确定假设后,常识能帮助我们验证模型,但是多数情况下需要我们不断地将模型和现实问题作比较,从而把现实问题尽可能无损地映射进计算机里面。

在建立了模型后,我们需要选择合适的算法来解决不同模型对应的具体现实问题。在进行算法选择的时候需要具体问题具体分析,兼顾“质量”与“效率”。比如同样是让计算机处理图像数据,家庭场景下的扫地机器人和专门用来处理天文观测数据的计算机对算法要求就不一样:前者要求在较快的时间内完成对图像精准度适中的处理,而后者对时间则无感,对精准度有极高的要求。也正是因为绝大多数问题不存在唯一解或者绝对正确的解,算法工程师需要根据机器人工作的场景和目标做出最合适的取舍。

在机器人决策环节中,让机器人自身的硬件处理多少计算任务是一个关键的问题。通常情况下,如果任务的执行依赖于多个机器人采集的多点数据,那么计算任务就更可能在多点数据汇集起来后,被放在远端的云服务器上进行处理。比如,如果有大量的机器人在特定的街区内追捕嫌犯,那么我们就需要所有机器人把采集到的图像等信息上传到云端处理,在一个“大脑中枢”规划了每一个机器人的路径后,每个机器人执行自己所接收到的指令。 当然,多数情况下应用云计算的场景是,每个机器人自身的芯片算力不足或者单位能耗过大。 云计算提供了一种更加经济的算力解决方案,帮助机器人解决所面临的问题。在此基础上,为了避免网络带宽不足、处理时间过长等问题,人们还会使用边缘计算、雾计算等方案。

以上是机器人决策部分所需要考虑的共性问题。当然,不同场景下机器人所面临的的决策问题非常不同,我们认为这也是机器人应用中最具场景差异化的部分。不过站在更高的维度上进行抽象后,我们依然能够发现大多数机器人都需要面对三大类决策问题:按照什么规则移动位置——移动决策、按照什么规则调整自身——机械臂运动决策,以及如何保障贯彻人类指令——人机交互决策。

(1)平面移动能力

定位导航技术需要机器人的感知能力,需要借助视觉传感器(如激光雷达)来帮助机器人完成周围环境的扫描,并配合相应的算法,构建有效的地图数据,以完成运算,最终实现机器人的自主定位导航。

同步定位:主要涉及激光SLAM以及视觉SLAM。前者主要采用2D或3D激光雷达进行数据搜集,后者主要有两种技术路径——基于RGBD的深度摄像机和基于单目、双目或鱼眼摄像头。

地图构建:机器人学中的地图构建主要有4种:栅格地图、特征点地图、直接表征法以及拓扑地图。

路径规划:路径规划是导航研究中的一个重要环节,主要方法有3种:基于事例的学习方法、基于环境模型的规划方法、基于行为的路径规划方法。

(2)三维空间运动能力

空间机械臂操控过程中涉及的 5 项关键技术,包括:交会对接与捕获技术、自主规划与智能控制技术、传感与感知技术、智能协同与操控技术及系统安全保障技术。

视觉系统的是智能机械臂三维运动最重要的组成部分,主要由计算机、摄影设备及图像采集设备构成。机器人视觉系统工作过程主要有图像采集、图像分析、图像输出等,其中,图像特征分析、图像辨别、图像分割均为关键任务,视觉信息的压缩和滤波处理、特定环境标志识别、环境和故障物检测等是视觉信息处理中难度最大、最核心的过程。

(3)人机交互能力

语音交互:结合语音人机交互过程,人机交互中的关键技术中包含了自然语音处理、语义分析和理解、知识构建和学习体系、语音技术、整合通信技术以及云计算处理技术。

视觉交互:机器人如果需要理解人类的感情,就会涉及人脸识别技术,包括特征提取及分类。

手势交互:目前,常用的手势识别方法主要包括基于神经网络的识别方法、基于隐马尔可夫模型的识别方法和基于几何特征的识别方法。

3.控制 —— 机器人运动能力

(1)常见的运动控制部件

机器人三大核心零部件为减速器、伺服电机、控制器,三大部件成本占机器人成本70%左右,其中减速器占成本构成35%左右,伺服电机占23%左右,控制器占12%左右。

我国工业机器人零部件目前仍处于追赶者,核心零部件主要依赖进口,但国产厂商(如埃斯顿、汇川技术、绿的谐波等)目前正在由守转攻的转折点,市占率即将超过50%,正在开始获得国外头部客户订单;我们认为机器人核心零部件进口只是短期问题,未来3-5年我国在制造水平及成本上有望全面赶超国外水平。

在服务机器人领域(如餐饮、清洁、递送等机器人),我国零部件及本体制造已达到全球领先水平;在供应链优势下,技术及成本上有望进一步突破。

要想让机器人像人一样灵巧、平稳地移动,并在此基础上完成复杂的任务,机器人的每一步都需要动态平衡,需要对瞬间的不稳定性有极强的适应能力。这包括需要快速调整脚的着地点,计算出突然转向需要施加多大的力,更重要的是还要在极短的时间内向足部实施非常大而又精准的力。这对控制理论、系统集成和工程实现等多个维度都提出了极高的要求。这里我们先讨论两个控制理论相关的问题——机器人柔顺控制和机器人攀爬步态规划,然后再介绍控制系统相关的探索成果。

a. 机器人柔顺控制

机器人单腿运动方面的研究是机器人全身柔顺控制的基础。机器人单腿柔顺控制的关键是研究不同控制方法下的腿部对外界冲击的响应,探究减小机器人与外界环境交互力的方法,以提高腿足式机器人运动的平稳性。具体来说可以细化为如下两部分:

位置控制:位置控制即根据规划完成的腿部足端的运动轨迹,通过逆运动学求解出期望的关节角度,并进一步将期望关节角度映射为关节执行器的期望长度;

阻抗控制:在位置控制的基础上,将腿部足底力引入控制闭环中,通过调节系统的柔顺特性。在拉压力传感器读取相关信息后,经过一系列计算求得腿部足底力,从而控制机器人调整腿部关节,达到减小足端对环境冲击的效果。

在单腿柔顺控制的基础上,结合机器人躯干姿态控制和运动轨迹规划等方案,我们才能在未来实现腿足式机器人在平坦地面、崎岖地面、台阶与坡面的稳定运动。

b. 机器人攀爬步态规划

在腿足机器人的各种步态中,使用静步态可以大大增加机器人自身的稳定性,通过崎岖度较高的地形。围绕间歇静步态规划方法的改进是腿足式机器人攀爬步态规划领域的热点问题,主要研究方向包括:改变迈步顺序(从多达24种不同的静步态中进行选择)和调整机器人重心(在移动速度和机器人稳定性中寻找平衡)。

c. 控制系统的整合与设计

要想让机器人具备优秀的平衡能力、像人一样灵巧地运动,需要把控制理论方面的成果与优秀的系统设计和工程能力结合起来。

在这方面,Boston Dynamics走在前列,在Altas机器人的设计中引入液压系统进行动作控制,这样可以保证瞬时更大的控制动力输出和更精确的力传递。Atlas机器人还引入了仿生的整体集成结构设计概念,有像骨骼和关节一样的支撑结构及油缸,还有像血管和神经一样的油路和电路。

2.值得关注的细分方向

(1)清洁等服务场景机器人

我国家政劳动人员在3000万人以上,整体呈老龄化趋势,是劳动力成本最大的用人场景之一(年工资规模在2万亿以上);其中景吾智能创新性开发了立体空间清洁机器人,能够代替人工实现立体空间的复杂擦拭等工作;麦岩智能从商用室内清洁机器人入手,专注于未来社区智能服务机器人,在社区、商业、文旅、会展、康养多场景全面提升服务效率

(3)农业场景机器人

我国农业劳动人口达1.7亿人,每年劳动人力成本在3万亿以上,但我国农业机械化、数字化及智能化水平远低于发达国家;发展农业机器人有利于缓解农业劳动力短缺,同时在部分场景下具有提高农作物产量及质量,减少农业碳排放等间接价值

(5)机器人感知技术

我们认为具备视觉感知是实现机器人智能化的核心要素,伴随的视觉传感器及相关软件算法不仅在机器人领域有较高通用性,同时可广泛应用于AI视觉检测、工业、交通等多个场景

外相对于下游做本体及解决方案的厂家,上游的传感器零部件更容易标准化、容易大规模上量

核心结论汇总

1.人工智能开启第四次科技革命,在传统三大产业劳动力大幅替代及释放的前提下,以创新为职业的“第四产业”劳动者将成为主流,推动全球GDP继续百倍增长。

2.作为人工智能的实体化,智能机器人将重塑生产协作关系,包括“劳动”在生产要素中的变革、全球制造业的格局重构、人类在物质世界及虚拟世界的精力分配……除经济外,甚至对军事、政治、文化产生深远影响。

3.在全球十亿量级的智能手机、百万量级的智能汽车产业引路的前提下,电池、5G、算力、智能驾驶、感知等通用性技术日趋成熟,当前十万量级的智能机器人将成为下一代爆发的超级终端。

4.机构在智能机器人领域投的不只是智能硬件或国产替代,而是在押注未来数个万亿级、数十个千亿级、上百个百亿级职业场景的无人化。在未来,机器人还将推动专业、细分领域的服务普及化,例如让更多人低成本、便捷地享受到高质量的情感陪伴、心理干预治疗等服务。

5.在劳动力无人化逻辑下,未来机器人即服务将成为主流模式,机器人项目服务粘性可能会堪比SaaS行业。在特定场景获得先发优势的企业有望凭借“数据采集→算法迭代→性能提升”的飞轮,进一步扩大其在该领域的领先地位。

6.对于未来新场景的挖掘:可将现有细分职业与无人化解决方案按图索骥分析未被满足的场景,智能机器人对于人工的替代将从大场景、低复杂度入手,逐步向中小型场景、高复杂度渗透。

7.对于细分场景技术实现难度:可从机器人劳动的场景多变性及工作复杂度两个维度来判断;此外也需要结合人类及机器人固有的思维长处。

8.对于商业可行性:通常机器人成本vs人工月成本的 ROI < 48个月时,该细分赛道会有产品出现,客户开始考虑尝试;ROI < 24个月,客户开始批量购买测试;ROI < 12个月,市场开始全面爆发。

 
友情链接
鄂ICP备19019357号-22