iVideoGPT: Interactive VideoGPTs are Scalable World Models

2024年05月24日
  • 简介
    这项工作介绍了交互式VideoGPT(iVideoGPT),它是一个可扩展的自回归变压器框架,将多模态信号 - 视觉观察、动作和奖励 - 集成到一个令牌序列中,通过下一个令牌预测实现代理的交互体验。iVideoGPT采用了一种新颖的压缩分词技术,有效离散化高维视觉观察。利用其可扩展的架构,我们能够在数百万人类和机器人操作轨迹上预先训练iVideoGPT,建立一个适应性强的基础,可用作各种下游任务的交互式世界模型。这些任务包括动作条件下的视频预测、视觉规划和基于模型的强化学习,其中iVideoGPT与最先进的方法相比取得了竞争性的表现。我们的工作推动了交互式通用世界模型的发展,弥合了生成式视频模型和实际基于模型的强化学习应用之间的差距。
  • 图表
  • 解决问题
    论文旨在解决如何在大规模交互式环境中使用视频生成模型开发世界模型的问题。这是一个新问题。
  • 关键思路
    论文提出了一种名为iVideoGPT的框架,它将多模态信号(视觉观察、动作和奖励)集成到标记序列中,通过下一个标记预测实现智能体的交互体验。iVideoGPT具有一种新颖的压缩标记化技术,可以有效地离散化高维视觉观察。
  • 其它亮点
    论文设计了实验来展示iVideoGPT的可扩展性和适用性。iVideoGPT在数百万个人类和机器人操作轨迹上进行预训练,可用作各种下游任务的交互式世界模型,包括动作条件的视频预测、视觉规划和基于模型的强化学习。iVideoGPT与最先进的方法相比具有竞争性能。
  • 相关研究
    最近的相关研究包括:《World Models》、《Dreamer》、《PlaNet》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论