【论文标题】Mastering Diverse Domains through World Models
【作者团队】Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap
【发表日期】2023.1.10
【论文链接】https://arxiv.org/pdf/2301.04104.pdf
【推荐理由】目前强化学习算法具有解决许多领域任务的潜力,但由于需要调整算法以适应新任务所需的资源和知识,这种潜力受到了限制。DeepMind研究人员提出了 DreamerV3,一个通用的和可扩展的算法基于世界模型,优于以前的方法在广泛的领域与固定的超参数。这些领域包括连续和离散的动作,视觉和低维输入,2D 和3D 世界,不同的数据预算,奖励频率和奖励尺度。同时 DreamerV3具有良好的缩放性能,较大的模型直接转换为较高的数据效率和最终性能。Dreamerv3是 Minecraft 第一个在没有人类数据或课程的情况下从零开始收集钻石的算法,这是人工智能领域的一个长期挑战。DeepMind通用算法使强化学习广泛适用,并允许扩展到困难的决策问题。
DeepMind推出世界模型通用算法DreamerV3
沙发等你来抢
去评论
评论
沙发等你来抢