沃卡惠移动端logo

沃卡惠  行业资讯

资讯详情

谷歌推出改进强化学习的新方法

2022-11-12 08:42:224636

谷歌推出改进强化学习的新方法

谷歌的人工智能研究人员提出了一种改进强化学习 (RL) 的新方法——重用先前的计算工作。

在论文Reincarnating Reinforcement Learning: Reusing Prior Computation to Accelerate Progress中,该团队提议在 RL 代理到另一个代理的设计迭代之间重用记录的数据或学习模型。

研究人员表示,重用计算工作可以“显着提高现实世界 RL 的采用率,并有助于进一步民主化”。

该论文的作者表示,重生强化学习 (RRL) 是“比白板强化学习更(更多)计算效率更高的研究工作流程,并且可以帮助进一步使研究民主化”。

该论文在 NeurIPS 2022 会议之前发表,代码可通过GitHub获得。

降低研究人员的计算成本

强化学习是一种机器学习训练方法,其中期望的行为得到奖励,而未寻求的行为则受到惩罚。实际上,这是一种试错法,系统会逐渐学习其任务和周围的环境。RL 可用于改进机器人、自动驾驶汽车本文和对话代理等领域的部署。

谷歌推出改进强化学习的新方法

大多数基于代理的系统都是使用 RL 的白板方法开发的,因为它们是从头开始构建的,而不使用先前学习的有关问题的知识。

谷歌的研究团队认为,tabula rasa RL 方法“通常是解决大规模 RL 问题的例外而不是规范”。他们认为,重新训练大型系统“成本高得令人望而却步”,尤其是考虑到许多系统经历了多次设计变更和修改。

“tabula rasa RL 研究的低效率可能使许多研究人员无法解决计算要求高的问题,”作者在谷歌博客文章中写道。

相反,研究人员认为,他们的新可重用方法将使研究人员受益,因为不需要过多的计算资源。

谷歌研究人员表示:“RRL 可以实现基准测试范式,研究人员可以在其中不断改进和更新现有的训练有素的代理,特别是在提高性能对现实世界产生影响的问题上,例如(平流层)气球导航或芯片设计。”

然而,该论文确实指出,对于自然语言处理 (NLP) 和计算机视觉来说,重新强化学习将是困难的,因为在这些领域,预训练的模型很少(如果有的话)从头开始复制或重新训练,但几乎总是按原样使用。

作者写道:“由于从头开始的再现性涉及再现现有的计算工作,它可能比训练白板更昂贵,这超出了进行轮回的目的。”