NEW

Cosmos World Foundation Model Platform for Physical AI

NVIDIA ,

: ,

Niket Agarwal ,

Arslan Ali ,

Maciej Bala ,

Yogesh Balaji ,

Erik Barker ,

Tiffany Cai ,

Prithvijit Chattopadhyay ,

Yongxin Chen ,

Yin Cui ,

Yifan Ding ,

Daniel Dworakowski ,

Jiaojiao Fan ,

Michele Fenzi ,

Francesco Ferroni ,

Sanja Fidler ,

Dieter Fox ,

Songwei Ge ,

Yunhao Ge ,

Jinwei Gu ,

Siddharth Gururani ,

Ethan He ,

Jiahui Huang ,

Jacob Huffman ,

Pooya Jannaty ,

Jingyi Jin ,

Seung Wook Kim ,

Gergely Klár ,

Grace Lam ,

Shiyi Lan ,

Laura Leal-Taixe ,

Anqi Li ,

Zhaoshuo Li ,

Chen-Hsuan Lin ,

Tsung-Yi Lin ,

Huan Ling ,

Ming-Yu Liu ,

Xian Liu ,

Alice Luo ,

Qianli Ma ,

Hanzi Mao ,

Kaichun Mo ,

Arsalan Mousavian ,

Seungjun Nah ,

Sriharsha Niverty ,

David Page ,

Despoina Paschalidou ,

Zeeshan Patel ,

Lindsey Pavao ,

Morteza Ramezanali ,

Fitsum Reda ,

Xiaowei Ren ,

Vasanth Rao Naik Sabavat ,

Ed Schmerling ,

Stella Shi ,

Bartosz Stefaniak ,

Shitao Tang ,

Lyne Tchapmi ,

Przemek Tredak ,

Wei-Cheng Tseng ,

Jibin Varghese ,

Hao Wang ,

Haoxiang Wang ,

Heng Wang ,

Ting-Chun Wang ,

Fangyin Wei ,

Xinyue Wei ,

Jay Zhangjie Wu ,

Jiashu Xu ,

Wei Yang ,

Lin Yen-Chen ,

Xiaohui Zeng ,

Yu Zeng ,

Jing Zhang ,

Qinsheng Zhang ,

Yuxuan Zhang ,

Qingqing Zhao ,

Artur Zolkowski

2025年01月07日

简介

物理人工智能（Physical AI）首先需要在数字环境中进行训练。它需要一个自身的数字孪生，即策略模型，以及世界的数字孪生，即世界模型。在本文中，我们介绍了Cosmos世界基础模型平台，以帮助开发者为其物理AI系统构建定制化世界模型。我们将世界基础模型定位为一种通用的世界模型，可以通过微调转化为适用于下游应用的定制化世界模型。我们的平台包括视频策展管道、预训练的世界基础模型、预训练世界基础模型的后训练示例，以及视频分词器。为了帮助物理AI开发者解决我们社会最关键的问题，我们开源了平台，并开放了模型权重，且提供了宽松许可，可通过https://github.com/NVIDIA/Cosmos 获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决为物理AI构建定制化世界模型的挑战。具体来说，它旨在提供一个平台和方法论，使开发者能够创建和训练数字孪生环境，以更好地模拟现实世界，从而提高物理AI的表现。这是一个重要的问题，因为当前大多数AI研究集中在软件层面，而物理AI需要更复杂的环境理解能力。
关键思路

关键思路是引入了'世界基础模型'的概念，这是一种通用的世界模型，可以通过微调适应特定的物理AI应用场景。通过Cosmos World Foundation Model Platform，开发者可以获得预训练的基础模型、视频整理管道、视频分词器等工具，从而大大简化了从零开始构建复杂世界模型的过程。相比现有研究，这种方法提供了更高的灵活性和可扩展性，允许快速迭代和定制化。
其它亮点

论文的重要亮点包括：1) 提供了一个完整的开发平台，涵盖从数据准备到模型训练的所有步骤；2) 开源代码和开放权重，促进了社区协作和透明度；3) 使用了大规模的真实世界视频数据集进行预训练，确保模型具有广泛适用性；4) 强调了通过微调来适应不同任务的可能性，展示了其在多个领域的潜在应用。未来的研究可以进一步探索如何优化这些模型以应对更加复杂的环境。
相关研究

近年来，在物理AI和环境建模方面也有一些相关研究，例如《Learning to Navigate the Physical World with Large-Scale Pretraining》、《Sim-to-Real Transfer for Robotic Manipulation via Domain Randomization and Adaptation Networks》以及《Building Generalizable Agents with a Realistic and Rich Environment》。这些研究都试图通过不同的方法来改善物理AI对真实世界的理解和交互能力。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问