Video as the New Language for Real-World Decision Making

2024年02月27日
  • 简介
    网络上充斥着丰富的文本和视频数据,它们通过下一个标记或帧的预测支持大规模的自监督学习。然而,它们并没有被充分利用:语言模型已经在现实世界中产生了重大影响,而视频生成在很大程度上仍限于媒体娱乐。然而,视频数据捕捉了关于物理世界的重要信息,这些信息很难用语言表达。为了解决这一差距,我们讨论了一种被低估的机会,即扩展视频生成以解决实际问题。我们观察到,与语言类似,视频可以作为一个统一的接口,吸收互联网知识并代表各种任务。此外,我们演示了如何通过上下文学习、规划和强化学习等技术,使视频生成成为规划器、代理、计算引擎和环境模拟器。我们在机器人、自动驾驶和科学等领域确定了重大影响机会,并支持最近的工作,证明这些先进的视频生成能力是可行的。最后,我们确定了视频生成中的关键挑战,以缓解进展。解决这些挑战将使视频生成模型在更广泛的AI应用中展示出与语言模型同样独特的价值。
  • 图表
  • 解决问题
    论文试图探讨视频生成在解决实际问题中的潜力,以及如何将其应用于机器人、自动驾驶和科学等领域。同时,论文也提出了视频生成在这些领域中所面临的挑战。
  • 关键思路
    论文提出了视频生成可以像语言模型一样,通过技术手段(如上下文学习、规划和强化学习)成为规划器、代理、计算引擎和环境模拟器,从而解决实际问题的思路。
  • 其它亮点
    论文强调了视频数据可以捕捉语言难以表达的物理世界的重要信息,因此视频生成在解决实际问题中具有巨大的潜力。同时,论文还列举了一些相关工作和数据集,并提出了视频生成在机器人、自动驾驶和科学等领域的应用前景。
  • 相关研究
    相关研究包括使用视频生成进行场景预测和控制的工作,如《Video Prediction and Control with Models》;使用视频生成进行机器人控制的工作,如《Learning Dexterous In-Hand Manipulation》;以及使用视频生成进行自动驾驶的工作,如《ChauffeurNet: Learning to Drive by Imitating the Best and Synthesizing the Worst》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论