Scaling Instructable Agents Across Many Simulated Worlds

SIMA Team ,
Maria Abi Raad ,
Arun Ahuja ,
Catarina Barros ,
Frederic Besse ,
Andrew Bolt ,
Adrian Bolton ,
Bethanie Brownfield ,
Gavin Buttimore ,
Max Cant ,
Sarah Chakera ,
Stephanie C. Y. Chan ,
Jeff Clune ,
Adrian Collister ,
Vikki Copeman ,
Alex Cullum ,
Ishita Dasgupta ,
Dario de Cesare ,
Julia Di Trapani ,
Yani Donchev ,
Emma Dunleavy ,
Martin Engelcke ,
Ryan Faulkner ,
Frankie Garcia ,
Charles Gbadamosi ,
Zhitao Gong ,
Lucy Gonzales ,
Kshitij Gupta ,
Karol Gregor ,
Arne Olav Hallingstad ,
Tim Harley ,
Sam Haves ,
Felix Hill ,
Ed Hirst ,
Drew A. Hudson ,
Jony Hudson ,
Steph Hughes-Fitt ,
Danilo J. Rezende ,
Mimi Jasarevic ,
Laura Kampis ,
Rosemary Ke ,
Thomas Keck ,
Junkyung Kim ,
Oscar Knagg ,
Kavya Kopparapu ,
Andrew Lampinen ,
Shane Legg ,
Alexander Lerchner ,
Marjorie Limont ,
Yulan Liu ,
Maria Loks-Thompson ,
Joseph Marino ,
Kathryn Martin Cussons ,
Loic Matthey ,
Siobhan Mcloughlin ,
Piermaria Mendolicchio ,
Hamza Merzic ,
Anna Mitenkova ,
Alexandre Moufarek ,
Valeria Oliveira ,
Yanko Oliveira ,
Hannah Openshaw ,
Renke Pan ,
Aneesh Pappu ,
Alex Platonov ,
Ollie Purkiss ,
David Reichert ,
John Reid ,
Pierre Harvey Richemond ,
Tyson Roberts ,
Giles Ruscoe ,
Jaume Sanchez Elias ,
Tasha Sandars ,
Daniel P. Sawyer ,
Tim Scholtes ,
Guy Simmons ,
Daniel Slater ,
Hubert Soyer ,
Heiko Strathmann ,
Peter Stys ,
Allison C. Tam ,
Denis Teplyashin ,
Tayfun Terzi ,
Davide Vercelli ,
Bojan Vujatovic ,
Marcus Wainwright ,
Jane X. Wang ,
Zhengdong Wang ,
Daan Wierstra ,
Duncan Williams ,
Nathaniel Wong ,
Sarah York ,
Nick Young
2024年03月13日
  • 简介
    建立能够在任何3D环境下遵循任意语言指令的具体化人工智能系统是创造通用人工智能的关键挑战。实现这一目标需要学习将语言与感知和具体化行动相结合,以完成复杂任务。可扩展、可指导、多世界代理(SIMA)项目通过训练代理程序在各种虚拟3D环境中遵循自由形式的指令来解决这个问题,包括精心策划的研究环境以及开放式的商业视频游戏。我们的目标是开发一个可指导的代理程序,能够在任何模拟的3D环境中完成人类能够完成的任何任务。我们的方法侧重于以语言驱动的通用性,同时尽量少地做出假设。我们的代理程序使用通用的、类似于人类的接口实时与环境交互:输入是图像观察和语言指令,输出是键盘和鼠标动作。这种通用方法具有挑战性,但它允许代理程序在许多视觉复杂和语义丰富的环境中接地语言,同时也允许我们在新环境中轻松运行代理程序。在本文中,我们描述了我们的动机和目标,我们已经取得的初步进展,以及在几个不同的研究环境和各种商业视频游戏中的有前途的初步结果。
  • 图表
  • 解决问题
    构建具有任意语言指令的智能体,使其在任何3D环境中执行任务是创造通用人工智能的关键挑战。本论文旨在通过训练智能体在各种虚拟3D环境中遵循自由形式的指令,包括研究环境和商业视频游戏,从而实现这一目标。
  • 关键思路
    本论文提出了一种基于语言驱动的通用方法,使用图像观察和语言指令作为输入,键盘和鼠标操作作为输出,训练智能体在多个复杂环境中执行任务。这种方法具有挑战性,但可以让智能体在许多视觉复杂和语义丰富的环境中接地语言,同时也可以让我们很容易地在新环境中运行智能体。
  • 其它亮点
    本论文的亮点包括使用通用的人类界面,实现在多个虚拟3D环境中的任务执行,以及在多个研究环境和商业视频游戏中进行了有前途的初步实验。此外,论文还提供了数据集和开源代码,这些工作值得进一步研究。
  • 相关研究
    在最近的相关研究中,也有一些关于基于语言的任务执行的工作,例如Learning to Navigate Using Mid-Level Visual Priors和Embodied Question Answering in Photorealistic Environments with Point Cloud Perception等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论