|基于生成对抗演示自模仿学习的类级别泛化物体操纵

2022-08-05 00:56 来源：读者提供作者：网友发布浏览：11

核心提示导读本文是 RA-L with IROS 2022入选论文 Learning Category-Level Generalizable Object Manipulation Policy via Generative Adversari

指导阅读

本文是对RA-L的一个解释，结合了IROS 2022精选论文《通过演示的生成式对抗性自限制学习来学习类别级可概括对象操作策略》。本文由北京大学前沿计算研究中心王鹤课题组完成。研究了ManiSkill [1]对象操作数据集上对象操作的类级泛化，提出了一些基于生成对抗演示自模仿学习的算法来解决这类问题。

论文地址:

https://arxiv.org/abs/2203.02107

项目主页:

https://shen-hhao.github.io/Category_Level_Manipulation/

引用单词

在真实世界的复杂情景下，可泛化的物体操纵对于智能多功能机器人而言是十分重要的技能。尽管近来强化学习（reinforcement learning）取得了一定的进展，对于几何上多样化的铰接物体（articulated object）仍难以训练出可泛化的操纵策略。在这项工作中，我们假定没有提供密集奖励（dense reward），而是仅有终点奖励（terminal reward），以此背景下使用模仿学习来实现类别泛化的物体操纵策略的学习。对于此类富有挑战的任务设定，以生成对抗模仿学习（GAIL）[2] 结合 Soft Actor-Critic (SAC) [3] 为基线算法，我们提出了一些会使模仿学习算法失效并且阻碍对于未知实例泛化的关键问题：

在生成对抗的方法下，多个训练样本一起学习会使鉴别者的奖励降低到0，使模仿学习停滞；不同对象的演示是由不同的策略生成的，很难用单一的策略模仿；在训练集中，策略可能集中在某些训练实例的成功上，导致策略的倾向性，不能推广到未知实例。我们提出了三种改进基线算法的方法:通过生成对抗演示进行自模仿学习。

（Generative Adversarial Self-Imitation Learning from Demonstrations），

鉴别器的逐渐增强

（Progressive Growing of Discriminator）与

类级实例平衡专家缓冲区

（Category-Level Instance-Balancing (CLIB) Expert Buffer），从而精确地解决了这些问题。在 ManiSkill [1] 物体操纵数据集上的实验和后续的消融实验验证了每一种方法的有效性以及对于类级别泛化能力的提升。

方法介绍

图1. 方法流程图，我们的方法基于GAIL结合SAC，橙色部分为在此之上的改进方法。图2. 逐渐增强判别器的网络结构

鉴别器的逐渐增强

鉴别器的渐进增长如图2所示。在训练过程中，鉴别器会从简单的初始结构逐渐过渡到更复杂的结构，以逐步提高其鉴别能力。我们采用[1]中的点网结构作为其初始网络结构，采用[1]中的点网+变压器结构作为其最终结构。图2中的α在训练过程中会从0到1线性变化，从而实现结构的过渡和鉴别器的逐渐增强，解决了训练初期鉴别器过强的问题，实现了鉴别器和策略的同步增长。生成对抗演示的自模仿学习

从示范中学习对盖尔来说，回报会随着训练而减少。我们将GAIL [4]和SILfD [5]结合起来，在专家缓冲区中用专家演示初始化，在训练过程中逐渐填充自我策略生成的成功轨迹。采用该方法后，专家缓冲区中的轨迹将逐渐被自策略生成的轨迹填充，使得轨迹数据分布更加均衡，解决了奖励函数降为零的问题。类级实例平衡专家缓冲区

类别级实例平衡(CLIB)专家缓冲区在使用自模拟学习后，我们将专家缓冲区平均分成几个槽，分布对应每个训练实例，由每个训练实例对应的专家演示初始化。在训练的过程中，成功的轨迹将被放置在实例的槽中，而不是所有的轨迹被放在一起。这样就可以控制专家缓冲区中所有成功轨迹数量的平衡，避免部分示例轨迹比例过高，使模仿学习策略出现偏差的问题。图3。算法的伪代码

实验演示

我们的方法（Method V）在 ManiSkill Benchmark [1]上极大地提升了基线算法 GAIL (Method I) [2] 的效果，在训练集与验证集上的成功率分别提高了13%和18%。详细的实验结果见下表。进一步地，我们的消融实验验证了每一项改进对于成功率和泛化能力的提升，我们还对每一项改进做了详细的分析，详细分析与结果请参见论文。表1. 主要实验结果同时，我们在有人工设计的环境奖励的情况下验证了我们的方法。我们的方法在有环境奖励的情况下，成功率分别在训练集与验证集上超出了基线算法7%，进一步说明了该算法的适用性。在表2中使用 GAIL+Dense Reward 的方法为我们在之前 ManiSkill 2021挑战赛无额外标注赛道获得冠军的方法（详见：王鹤团队获ICLR 2022机器人ManiSkill挑战赛无额外标注赛道冠军）。表2. 使用密集奖励的附加实验

洁玉

本文首次通过从演示中生成对抗自模仿学习的方法来解决类别级物体操作问题，在 GAIL 基线算法之上，提出了几项提升效果的重要方法，包括将 GAIL 与 self-imitation learning from demonstrations 相结合、progressive growing of discriminator 和 category-level instance balancing buffer。我们的消融实验进一步验证了每一项改进可以使成功率和泛化能力显著地提高。

引用的文献

[1]穆婷，凌志，向峰，等. Maniskill:具有大规模验证的概化操作技能基准[J].arXiv预印本arXiv:2107.14483，2021。

[2]何J，埃蒙s .生成性对抗性模仿学习[J].神经信息处理系统进展，2016，29。

[3] Haarnoja T，Zhou A，Abbeel P，等.软行动者-批评家:带随机行动者的非策略最大熵深度强化学习[C]//机器学习国际会议。PMLR，2018: 1861-1870。

[4]郭Y，吴J，辛格S，等.生成性对抗性自我模仿学习[J].arXiv预印本arXiv:1812.00950，2018。

[5]普西哈切夫G，伊万诺夫D，叶戈罗夫V，等.从示范中学习自我模仿[J].arXiv预印本arXiv:2203.10905，2022。

智能机器人与系统