VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

2025年01月16日
  • 简介
    这项研究探讨了深度生成模型是否仅通过视觉输入就能学习复杂的知识,这与当前主要关注基于文本的模型(如大型语言模型,LLMs)的研究方向不同。我们开发了VideoWorld,这是一种自回归视频生成模型,训练数据为未标注的视频,并在基于视频的围棋和机器人控制任务中测试其知识获取能力。我们的实验揭示了两个关键发现:(1)仅使用视频进行训练提供了足够的信息来学习知识,包括规则、推理和规划能力;(2)视觉变化的表征对于知识获取至关重要。为了提高这一过程的效率和效果,我们引入了潜在动力学模型(LDM)作为VideoWorld的关键组成部分。值得注意的是,VideoWorld仅使用一个包含3亿参数的模型,在Video-GoBench上达到了五段职业水平,而无需依赖强化学习中常见的搜索算法或奖励机制。在机器人任务中,VideoWorld有效地学习了多种控制操作,并在不同环境中表现出良好的泛化能力,其性能接近CALVIN和RLBench中的理想模型。本研究为从视觉数据中获取知识开辟了新的途径,并将所有代码、数据和模型开源以供进一步研究。
  • 作者讲解·1
  • 图表
  • 解决问题
    该论文试图验证一个假设:深度生成模型是否可以从纯视觉输入中学习复杂知识,而无需依赖文本数据。这是一个相对新颖的问题,因为大多数现有研究主要集中在基于文本的大型语言模型上。
  • 关键思路
    关键思路是开发了一个名为VideoWorld的自回归视频生成模型,该模型仅通过未标注的视频数据进行训练,并测试其在视频版围棋(Go)和机器人控制任务中的知识获取能力。与传统的强化学习方法不同,该模型不依赖于搜索算法或奖励机制,而是通过视觉变化的表示来学习规则、推理和规划能力。这为从视觉数据中获取知识提供了一种全新的途径。
  • 其它亮点
    实验设计包括两个主要任务:视频版围棋和机器人控制任务。在视频版围棋中,VideoWorld达到了5段职业水平,使用了仅3亿参数的模型;在机器人控制任务中,模型展示了多样化的操作技能并在不同环境中实现了良好的泛化。此外,作者引入了潜在动态模型(LDM),以提高知识获取的效率和效果。所有代码、数据和模型均已开源,为未来的研究提供了宝贵资源。
  • 相关研究
    最近在这个领域的一些相关研究包括:1. 视觉表征学习的研究,如《Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning》;2. 自监督学习在机器人控制中的应用,如《Mastering Visual Continuous Control》;3. 强化学习在围棋中的应用,如《AlphaGo Zero: Starting from Scratch》。这些研究共同推动了从视觉数据中学习复杂任务的能力。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问