- 简介具身系统所体验的世界是一种“流动的交响乐”:多种连续的感官输入流与自身运动相耦合,同时交织着外部物体的动态变化。这些流动遵循平滑的、以时间参数化的对称性,并通过一种结构精确的代数方式相互组合;然而,大多数神经网络世界模型忽略了这种结构,转而反复从数据中重新学习相同的变换。在本研究中,我们提出了“流动等变世界模型”(Flow Equivariant World Models),该框架将自身运动与外部物体运动统一为单参数李群(Lie group)意义上的“流”。我们利用这一统一性,实现了对这些变换的群等变性(group equivariance),从而在数百个时间步长内提供了稳定的潜在空间世界表征。在2D和3D部分可观测的视频世界建模基准任务上,我们证明了流动等变世界模型显著优于当前最先进的基于扩散机制和增强记忆结构的世界模型架构——尤其是在智能体当前视野之外存在可预测世界动态的情况下表现更为突出。我们还表明,流动等变性特别有利于长时间的序列预测,能够泛化至远超训练时长的时间范围。通过将世界模型的表征结构化为对内部与外部运动的响应,流动等变性为实现数据高效、由对称性引导的可扩展具身智能提供了一条可行路径。项目链接:https://flowequivariantworldmodels.github.io。
-
- 图表
- 解决问题论文试图解决现有神经网络世界模型在处理具身系统中连续、动态的感官输入流时,忽略时间参数化对称性结构的问题。大多数现有模型反复从数据中重新学习相同的变换,导致在长期预测和未观测区域动态建模上表现不佳。这是一个重要但尚未被充分重视的问题,尤其是在需要长期依赖和外部动态推断的具身智能场景中。
- 关键思路提出'Flow Equivariant World Models'(流动等变世界模型),将自我运动和外部物体运动统一为单参数李群'流'(Lie group flows),并通过构建对这些变换的群等变性,实现对潜空间表示的稳定性。关键创新在于利用对称性的代数结构(李群与流)显式建模内外部动态,避免重复学习,提升泛化能力,特别是在训练视野之外的可预测动态建模上。
- 其它亮点在2D和3D部分可观测视频世界建模基准上,该方法显著优于当前最先进的扩散模型和记忆增强架构;尤其在长序列 rollout 上表现出更强的泛化能力,远超训练时域。实验设计强调长期预测与非视野内动态推理,使用了标准合成环境(如3D Room、Sprites等)进行评估。项目已开源,代码和演示发布于 https://flowequivariantworldmodels.github.io;未来工作可探索更复杂的现实世界应用、与其他生成模型(如扩散)结合,以及扩展到多智能体交互场景。
- 1. Equivariant Transformers for Neural Scene Representations 2. Learning Temporal Equivariant State Representations with Convolutional Lie Group Networks 3. World Models with Symmetry-Preserving Latent Dynamics 4. Lie Groups in Reinforcement Learning: A Framework for Continuous Control Symmetries 5. Diffusion-Based Video Prediction with Invariant Representations
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流