谷歌新智能体Dreamer将亮相NeurIPS 2019,数据效率比前身PlaNet快8个小时

阿里云创新中心> 创业资讯> 谷歌新智能体Dreamer将亮相NeurIPS 2019,数据效率比前身PlaNet快8个小时
0

谷歌新智能体Dreamer将亮相NeurIPS 2019,数据效率比前身PlaNet快8个小时

李雨晨 2019-12-11 08:59:00 258
导语:增强型学习智能体Dreamer12月5日消息,来自谷歌大脑,DeepMind以及多伦多大学的研究人员们近日发表了一篇名为《梦想控制:通过潜意识的学习行为》的新研
在具有挑战性的环境中,一些人工智能系统通过利用过去经验所提供的世界表象来实现目标。研究人员将这些应用推广到新的情况,使它们能够在以前从未遇到过的环境中完成任务。事实证明,强化学习——一种使用奖励来推动软件策略朝着目标前进的训练技术——特别适合学习一个总结agent经验的世界模型,并通过扩展来促进新行为的学习。雷锋网消息,近日,来自Google、Alphabet子公司DeepMind和多伦多大学的研究人员发表了一篇名为《梦想控制:通过潜意识的学习行为》的新研究,他们开发了一个增强型学习智能体Dreamer,通过内化一个世界模型,并通过通过潜在的“想象力”来提前计划选择行动。他们说,Dreamer不仅适用于任何学习目标,而且在数据效率、计算时间以及最终性能方面都超过了现有的方法。在它的整个生命周期中,无论是交错还是并行,Dreamer都会学习一个latent  dynamics model(潜在动力学模型),以预测动作和观察结果的回报。在这种情况下,“latent dynamics  model”是指从图像输入中学习并执行计划以收集新经验的模型。“潜在”表示它依赖于隐藏状态或潜在状态的紧凑序列,这使它能够学习更多抽象的表示形式,例如对象的位置和速度。使用编码器组件,有效地将来自输入图像的信息集成到隐藏状态中,然后及时地将隐藏状态向前投影以预测图像和奖励。上图:Dreamer完成一个摆动钟摆的任务。中间显示45步预测Dreamer使用了一个多部分的latent  dynamics  model,这个模型的结构有些复杂。“表示”位对观察和动作进行编码,而“过渡”位则在没有看到会引起观察的情况下预见状态。第三个组件(奖励组件)根据给定的模型状态来投影奖励,而行为模型将实施学习的策略并旨在预测可解决想象的环境的行为。最终,价值模型评估行动模型实现的预期想象奖励,而观察模型提供反馈信号。上图:梦想家在迷宫中导航。中间显示45步预测。雷锋网了解到,在一系列实验中,研究人员测试了Dreamer在DeepMind  Control Suite中的20个视觉控制任务上的效果,DeepMind Control  Suite是一种用于评估机器学习驱动的代理的仿真软件。他们首先使用Nvidia  V100图形芯片和10个处理器内核来训练它,每次培训运行一次。他们说,控制套件上每106个环境步骤花费了9个小时。(相比之下,Google的Dreamer前身PlaNet花了17个小时才达到了类似的性能。)上图:梦想家在玩Atari游戏(拳击)。中间显示45步预测。研究人员报告说,Dreamer有效地利用了学习的世界模型来从少量经验中进行概括,并且它的成功证明了,通过潜在的想象力进行的学习行为可以胜过顶级方法。他们还说,Dreamer的价值模型即使在短期计划中也表现良好,在20个任务中的16个(有4个打成平手)上表现优于其他模型。研究人员写道:“未来,关于表征学习的研究可能会将潜在的想象力扩展到视觉复杂性更高的环境中,”研究人员计划在本周温哥华的NeurIPS  2019上展示他们的工作。Dreamer项目的代码可在GitHub上公开获得。雷锋网
                                                 本文转自雷锋网,如需转载请至雷锋网官网申请授权。
版权声明: 创新中心创新赋能平台中,除来源为“创新中心”的文章外,其余转载文章均来自所标注的来源方,版权归原作者或来源方所有,且已获得相关授权,若作者版权声明的或文章从其它站转载而附带有原所有站的版权声明者,其版权归属以附带声明为准。其他任何单位或个人转载本网站发表及转载的文章,均需经原作者同意。如果您发现本平台中有涉嫌侵权的内容,可填写「投诉表单」进行举报,一经查实,本平台将立刻删除涉嫌侵权内容。
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等

登录插画

登录以查看您的控制台资源

管理云资源
状态一览
快捷访问