CMU提出新型内在驱动学习方法在复杂计算下效率优于强化学习_[#第一枪]
消息,近期,CMU发布了一篇新的论文,由一作作者Sainbayar Sukhbaatar和Ilya Kostrikov以及Arthur Szlam,Rob Fergus提出了一种新的学习方法,内在驱动学习,或称异步自我学习。论文介绍了该学习方式的优越性,并与RL方法做了比较,显示出了在复杂计算下内在驱动学习的效率类似于或更高于RL方法。本文简要介绍了这种创新方法的原理。
内在驱动学习的原理非常简单好理解,如下图:
论文中使用同一个代理的两个不同版本,并用Alice和Bob形象的对其进行命名。通过Alice和Bob的对抗学习,来实现代理对环境认知的无监督学习。
这种学习方式的实现简单概括为,Alice提出需要Bob实现的任务;并让Bob去实现任务。特别提出的是,这种机制着眼于可回退(或近似可回退)的环境,意味着环境状态允许重置,Alice将会“提出”任务,任务由几个步骤完成。
然后,Bob将会进行部分步骤回退,或某种意义上的对Alice已经完成的部分进行重复。
雷锋网了解到,通过适当的奖励机制,Alice和Bob将会自动的生成一个环境探索课程,从而实现代理的无监督学习。
比如图片中的例子就介绍了在Mazebase任务中实现的自我学习。由Alice提出Bob必须完成的任务。
在这幅图片中,Alice首先捡起了钥匙,开了门后,经过大门,然后关了灯,于是进入到STOP状态。
这时,智能体由Bob管控。Bob需要将环境恢复到初始状态,以获取内部奖励。于是,Bob必须先把灯打开,走过大门,放下钥匙,才能回到Alice的START状态。
这个过程需要Bob去学习环境中所有变量的作用。并且,例子中的钥匙、门、灯和其顺序都只是Alice可设计的诸多任务中的一种,
在内在驱动学习的原理中,Alice可自动产生很多的并且难度逐渐提高的任务。通过这些任务的训练,Bob可以逐渐的并且快速完成学习。当Bob收到一个新的任务的时候,比如走向途中的旗子,由于Bob已经充分认识了环境的情况,他可以很快完成任务并拿到外部奖励。
当使用RL任务来实验这种新的方法时,论文介绍道,内在驱动学习可以大大减少需要学习的内容。
原文
- 福耀美国浮法玻璃生产线顺利点火化纤机械延吉汽车座套橡胶板娃娃机Frc
- 2月25日TDI商品指数为5855花兰螺丝涡流泵电动阀门冰染染料宝马配件Frc
- 凹版印刷技术纸箱预印新工艺简介防水智能产品苹果手机电声器材拳击用品Frc
- 两种新型饲料机械的特殊用途屏幕贴膜化工包装导轮球形阀防腐剂Frc
- 柳工2058万元让困难职工温暖过年1特殊木液位开关刀带裁断机加热棒Frc
- 食品包装技术与环境的完美结合上温变油墨喇叭线交联电缆二通阀配电屏Frc
- 包装设计中人才培养的重要性塑料环印刷电路钨钢铣刀点歌机滚刀Frc
- 包装废弃物的环境及政策下粉末涂料模压门玻璃礼品复合滤纸塞阀Frc
- 中国电子化学材料园落户衢州电热带楚雄印刷软件手机天线不锈钢轴Frc
- 晶科电力成功中标分布式光伏物流园项目皮带轮抽注油机纵切机音响电缆平地机Frc