- 简介这项工作介绍了交互式VideoGPT(iVideoGPT),它是一个可扩展的自回归变换器框架,将多模态信号——视觉观察、动作和奖励——整合成一个令牌序列,通过下一个令牌预测实现代理的交互体验,从而克服了利用最新的视频生成模型开发大规模世界模型的挑战。iVideoGPT采用了一种新颖的压缩式分词技术,有效地离散化了高维视觉观察。利用其可扩展的架构,我们能够在数百万人类和机器人操作轨迹上预训练iVideoGPT,建立一个多功能的基础,可适应各种下游任务的交互式世界模型。这些任务包括动作条件下的视频预测、视觉规划和基于模型的强化学习,其中iVideoGPT与最先进的方法相比取得了竞争性的性能。我们的工作推进了交互式通用世界模型的发展,弥合了生成视频模型和实际基于模型的强化学习应用之间的差距。
- 图表
- 解决问题论文旨在开发可扩展的交互式世界模型,以便于实现基于模型的决策制定。同时,论文也试图解决交互性对于大规模应用最新视频生成模型的挑战。
- 关键思路论文提出了一种名为iVideoGPT的可扩展自回归变换器框架,将多模态信号(视觉观察、动作和奖励)整合到一个标记序列中,通过下一个标记预测实现代理的交互体验。
- 其它亮点论文采用了一种新颖的压缩标记化技术,有效离散化了高维视觉观察。利用可扩展的架构,iVideoGPT在数百万个人和机器人操纵轨迹上进行了预训练,为下游任务建立了一个通用的基础,包括动作条件视频预测、视觉规划和基于模型的强化学习。实验结果表明,iVideoGPT在这些任务上的性能与最先进的方法相当。
- 近期的相关研究包括:1)基于模型的强化学习中使用的世界模型,如Dreamer和PlaNet;2)视频生成模型,如VideoGPT和SAPIEN;3)视觉规划和动态场景预测,如Visuomotor和Visual MPC。
沙发等你来抢
去评论
评论
沙发等你来抢