- 简介基础模型在视频、图像和语言领域已经取得了显著的成功。通过增加参数数量和训练数据集的规模,这些模型能够获得可泛化的世界知识,并且通常能超越任务专用的方法。然而,这样的进展尚未扩展到物理仿真领域。一个主要的瓶颈在于数据稀缺性:虽然互联网上存在数以百万计的图像、视频和文本资源,但最大的物理仿真数据集却仅有数万个样本。这种数据限制阻碍了大模型的应用,因为过拟合并成为了一个严重的问题。因此,物理仿真应用通常依赖于小模型,而小模型由于对上下文的理解能力有限,在进行长期预测时表现欠佳。此外,与图像、视频或文字这类通常具有固定粒度的数据不同,物理仿真数据在尺度上往往差异巨大,这进一步加剧了多任务训练在规模化方面的挑战。 我们提出了PhysiX,这是首个面向物理仿真的大规模基础模型。PhysiX是一个拥有45亿参数的自回归生成模型。它使用一个离散的分词器将不同尺度上的物理过程编码为一系列离散的token,并采用自回归的下一个token预测目标来在token空间中建模这些物理过程。为了减轻离散化过程中带来的舍入误差,PhysiX引入了一个专门的优化模块。通过大量的实验,我们证明了PhysiX可以有效缓解数据瓶颈问题,在类似设置下优于任务专用的基线方法,并在The Well基准测试中超越了此前最先进的方法。我们的研究结果表明,从自然视频中学到的知识可以成功迁移到物理仿真中,而跨多种仿真任务的联合训练能够实现协同学习。
- 图表
- 解决问题论文试图解决物理模拟领域缺乏大规模基础模型的问题。当前,由于数据稀缺,物理模拟通常依赖小型模型,导致在长期预测和多任务训练方面表现不佳。这是一个相对较新的问题,因为图像、视频和语言等领域已有大型基础模型取得成功,而物理模拟领域尚未实现类似突破。
- 关键思路论文提出PhysiX,首个用于物理模拟的大规模基础模型。其关键思路是:使用离散tokenizer将不同尺度的物理过程编码为离散token序列,并通过自回归的next-token预测目标进行建模。此外,引入专门的精炼模块以缓解离散化带来的舍入误差。相比现有研究,该方法首次尝试将生成式大模型应用于物理模拟任务,并探索了跨任务联合训练的潜力。
- 其它亮点{PhysiX是一个拥有4.5B参数的自回归生成模型,显著超越以往的小型任务专用模型,"实验表明PhysiX在The Well基准测试中优于当前最先进的方法",展示了从自然视频中学到的知识可以迁移到物理模拟中,通过统一的token序列建模方式,实现了对多种物理模拟任务的联合训练与协同学习,提出了精炼模块来缓解离散化误差,提高了模拟精度}
- {"DeepMind的GATO:A Generalist Agent with Embodied Multi-Task Learning","Meta的Video tokenizer: Tokenizing Video for Large-Scale Pretraining","Google的SimPLe: The Simulated Policy Learning Environment","NVIDIA的PhysNet: Learning Physical Dynamics using Neural Networks",OpenAI的CLIP与DALL-E系列模型在多模态与生成领域的应用}
沙发等你来抢
去评论
评论
沙发等你来抢