来自今日爱可可的前沿推介
论文:Mastering Diverse Domains through World Models
D Hafner, J Pasukonis, J Ba, T Lillicrap
[DeepMind & University of Toronto]
用世界模型让强化学习更适应多样域
推荐理由:
DreamerV3 是第一个在没有人工数据或课程的情况下,从头开始在 Minecraft 中收集钻石的算法,解决了人工智能领域长期存在的挑战。
要点:
-
提出 DreamerV3,一种基于世界模型的通用算法,可以在使用固定超参数的情况下学习掌握多种个领域,使强化学习易于应用;
-
证明了 DreamerV3 有利于扩展性,即模型尺寸的增加会导致最终性能和数据效率单调提高;
-
广泛的评估表明,DreamerV3 在各领域都优于其他专用算法,DreamerV3 是第一个在没有人工数据或课程的情况下,从头开始在 Minecraft 中收集钻石的算法,解决了人工智能领域长期存在的挑战。
一句话总结:
DreamerV3 是一种基于世界模型的通且可扩展的强化学习算法,在各种领域表现良好,可通过更多数据进行扩展,更适用于现实世界的问题。
摘要:
通用智能需要解决跨多个域的任务。目前的强化学习算法具有这种潜力,但受到调整新任务所需的资源和知识的限制。本文提出 DreamerV3,一种基于世界模型的通用且可扩展的算法,在固定超参数的情况下在大范围的各种领域超越了之前方法。这些领域包括连续和离散动作、视觉和低维输入、2D和3D世界、不同的数据预算、奖励频率和奖励范围。观察到 DreamerV3 的有利扩展性,更大的模型直接导致更高的数据效率和最终性能。直接应用 DreamerV3 是第一种在没有人工数据或课程的情况下在 Minecraft 中收集钻石的算法,这是人工智能领域长期存在的挑战。所提出的通用算法使强化学习广泛适用,并允许扩展到难以决策的问题。
General intelligence requires solving tasks across many domains. Current reinforcement learning algorithms carry this potential but are held back by the resources and knowledge required to tune them for new tasks. We present DreamerV3, a general and scalable algorithm based on world models that outperforms previous approaches across a wide range of domains with fixed hyperparameters. These domains include continuous and discrete actions, visual and low-dimensional inputs, 2D and 3D worlds, different data budgets, reward frequencies, and reward scales. We observe favorable scaling properties of DreamerV3, with larger models directly translating to higher data-efficiency and final performance. Applied out of the box, DreamerV3 is the first algorithm to collect diamonds in Minecraft from scratch without human data or curricula, a long-standing challenge in artificial intelligence. Our general algorithm makes reinforcement learning broadly applicable and allows scaling to hard decision making problems.
https://arxiv.org/abs/2301.04104
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢