编者按:位于硅谷的非营利组织OpenAI的研究人员开发的人工智能系统Dactyl使机器人能够像人类一样灵活地操纵立方体。本文授权翻译自《麻省理工科技评论》原题《一只AI驱动的机器人手花了饥饿的岁月教会自己旋转一个立方体》。
Daylai的研究人员成功开发了一种自学习算法,可以使机器人的手高度灵活。他们开发的算法使机器人能够灵活地操纵一个立方体,这相当于在计算机模拟中练习了一百年。
机器人的手远不如人类灵活,在工厂或仓库里使用也太笨拙。即便如此,这项研究仍然显示了机器学习的潜力。它还表明,有一天,机器人可能会在虚拟世界中自学新技能,这将大大加快对它们进行编程或训练的进程。
这个机器人系统名为“Dactyl”,由位于硅谷的非营利组织OpenAI的研究人员开发。它使用了一个现成的来自英国公司的名为Shadow的机器人手,一个普通的摄像头,以及一个已经掌握了一个巨大的多人在线视频游戏的DotA算法。它使用相同的自学习方法。
这种算法使用了一种称为强化学习的机器学习技术。Dactyl的任务是操纵一个立方体,并在其上转动不同的面。通过不断的试错,会产生预期的结果。
视频显示Dactyl可以非常快速地旋转立方体。它自动找出人类常用的几个抓取点。但这项研究也表明,人工智能还有很长的路要走:经过数百年的虚拟训练,机器人成功操纵魔方的概率只有13/50,远远超过了儿童所需的时间。
麻省理工学院名誉教授、Rethink Robotics创始人罗德尼·布鲁克斯说:“从短期来看,它不适合工业过程,但研究仍然是一件好事。”Rethink Robotics是一家生产更智能的工业机器人的初创公司。
强化学习的灵感来源于动物通过正反馈学习的方式。几十年前首次提出,但随着人工神经网络的进步,近几年才被证明可行。Alphabet的子公司DeepMind利用强化学习技术创造了AlphaGo。这是一个计算机程序,它学习了高超的技巧来玩极其复杂和微妙的棋盘游戏。
其他机器人研究人员已经测试了这种方法一段时间,但由于模仿现实世界的复杂性和不可预测性,他们很难取得突破。AI研究人员通过在虚拟世界中引入随机变量来解决这一问题,使机器人能够学习如何解释摩擦、机器人硬件噪音和立方体零件看不见等问题。
该机器人背后的工程师之一亚历克斯·雷(Alex Ray)表示,通过赋予它更多的处理能力和引入更多的随机性,可以提高Dactyl的性能。“我不认为我们已经达到了极限,”他说。Ray补充说,目前没有将这项技术商业化的计划。他的团队专注于开发最强的通用学习方法。
“很难做好,”密歇根大学专门研究机器操作的专家德米特里·贝伦森说。“目前还不清楚最新的机器学习方法会产生多大的影响。我们做了很多努力,为具体任务提供合适的方法。”但他认为模拟学习会非常有用:“如果我们真的能跨越‘现实鸿沟’,学习会变得更容易。
编译和制作。译者:刘麦麦简,编辑:郝鹏程。