- 简介我们介绍了Genie,这是第一个从未标注的互联网视频中以无监督方式训练的生成交互环境。该模型可以被提示生成无尽多样的可控动作虚拟世界,这些世界可以通过文本、合成图像、照片甚至草图来描述。在110亿参数的规模下,Genie可以被视为基础世界模型。它由一个时空视频标记器、一个自回归动态模型以及一个简单可扩展的潜在动作模型组成。尽管没有任何基于真实动作标签或其他通常在世界模型文献中找到的领域特定要求的训练,但Genie使用户能够在生成的环境中逐帧行动。此外,所得到的学习潜在动作空间有助于训练代理人模仿来自未见过的视频的行为,为未来训练通用代理人铺平了道路。
- 图表
- 解决问题该论文旨在介绍Genie,这是一个从未标记的互联网视频中无监督训练的生成式交互环境,可以生成无限多的可控虚拟世界。它试图解决如何训练通用智能代理的问题。
- 关键思路该论文的关键思路是使用无监督的方式从未标记的互联网视频中训练生成式交互环境,使其可以生成可控虚拟世界,并通过学习潜在动作空间来训练代理。
- 其它亮点该论文的亮点包括:使用无监督学习从未标记的互联网视频中训练生成式交互环境;生成的环境可以通过文本、合成图像、照片甚至草图来描述;学习的潜在动作空间有助于训练代理来模仿从未见过的视频中的行为。
- 最近在这个领域中,还有一些相关的研究,例如《World Models》、《Dreamer》、《PlaNet》等。
沙发等你来抢
去评论
评论
沙发等你来抢