RHOS团队 投稿
量子位 | 公众号 QbitAI
只看一段“刀切香蕉”的视频,AI要学到的远不止识别出刀和香蕉。
它还要知道:刀什么时候接触香蕉,香蕉为何断成两截,被遮挡的部分是否仍然存在,以及整个交互从不同视角看是否保持一致。
这类同时包含三维几何、时间变化和物理关系的4D交互数据,是具身智能、机器人学习和VLA训练的重要原料,却长期依赖昂贵的多机位采集系统。
上海交通大学李永露老师RHOS团队联合上海创智学院、中国科学技术大学和Math Magic(数美万物)在ECCV 2026接收的论文中提出HAT-4D:只输入一段真实场景中的单目视频,由多Agent协作完成多物体4D交互重建。
它不是一个完整的世界模型,更像是在给4D世界模型修路——把海量普通视频,转化为带有几何、动态、交互约束和长期记忆的训练资产。

△HAT-4D聚焦遮挡记忆、复杂形变与多物体交互三类核心难题。
先把视频写成一份“物理剧本”
单目视频天然缺少深度信息。两个物体在画面里挨在一起,不代表它们在三维空间中真的接触;物体一旦被遮住,生成模型还可能直接“忘掉”它。
HAT-4D首先让视觉语言模型通读视频,构建Interaction Knowledge Graph(IKG,交互知识图谱)。
IKG把视频拆成对象、事件和关系:场景里有哪些物体;接触、切割、分离分别发生在哪些时间段;谁在前、谁在后;物体之间需要满足非穿透、切向接触、运动耦合等约束。
于是,“刀切香蕉”不再只是一句文字描述,而变成一份可执行的4D施工图。

△IKG将视频分解为事件段,并显式编码对象属性、交互关系和物理约束。
多Agent接力:生成、记忆、质检、返工
拿到IKG后,一组专用Agent开始接力。
3D生成Agent分别重建香蕉、刀具等对象;空间组装Agent根据深度、相对位置和接触关系调整六自由度位姿;4D传播Agent把关键3D状态沿时间展开。
系统还专门设置了Memory Bank。被杯子挡住的小球、转到背面的物体,即使暂时不可见,也会通过关键帧记忆保持身份和几何状态。
最后,4D评估Agent从多视角检查物体是否穿透、变形是否合理、时间是否抖动。发现问题后,系统不是全部推倒重来,而是根据错误类型回滚到3D生成或4D传播环节局部返工。
这套流程已经形成了“理解—生成—记忆—评估—诊断—回滚”的多Agent闭环。

△HAT-4D总体框架:多Agent协同完成交互理解、3D生成与组装、记忆增强的4D传播及自动评估。
少量人类反馈,撬动明显提升
单目4D重建本质上存在多解,因此HAT-4D保留了人在回路中的纠错接口。
用户可以在对象级重新生成错误物体,在区域级修复局部结构,也可以直接调整Gaussian Splats的位置、颜色和透明度。
实验中,只允许3次人工介入,变形分数便从3.90提升到5.47,交互关系分数从2.88提升到4.79;继续增加介入次数后,收益逐渐饱和。
这意味着人不需要逐帧标注,只需在少数关键状态上纠偏,就能阻止错误沿时间持续累积。

△少量人类介入即可显著改善重建质量和交互质量,随后收益逐渐趋于饱和。
从一次重建,到4D数据飞轮
团队还构建了MVOIK-4D基准,包含112个场景、77项任务、39类交互和15类物体变形,重点覆盖遮挡记忆、复杂形变和多物体协同。
HAT-4D在LPIPS、交互重建和长期记忆等核心指标上取得领先表现。更关键的是,经人机协作修正的4D资产可以继续作为高质量伪真值,反向微调底层生成模型。
在L4GM微调实验中,引入更丰富的随机监督视角后,PSNR由21.29dB提升至24.22dB。
因此,HAT-4D的意义不只在于“把一条视频变成4D”。它尝试打通一条可扩展的数据生产链:真实视频进入,多Agent完成结构化理解和4D重建,人类在关键节点校正,生成数据再反哺模型。
复杂柔性形变和高速非刚体运动仍是当前难点,但一座面向4D世界模型的数据工厂,已经有了雏形。

△使用HAT-4D数据微调L4GM时,多样视角监督将PSNR提升至24.22dB。
核心实验结果表格

△MVOIK-4D基准定量对比:HAT-4D在LPIPS、交互重建与长期记忆指标上表现突出。

△人工介入预算消融:3-5次关键纠偏已带来明显收益,继续增加后趋于饱和。

△多层级精修算子消融:对象级修正贡献最大,区域级与Gaussian级修正提供局部补充。
论文信息

RHOS官网论文条目已上线:https://mvig-rhos.com/
论文项目主页:https://lijiaxin0111.github.io/HAT4D/
arxiv论文:https://arxiv.org/abs/2606.28215
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
【学术投稿】请在工作日发送邮件至:ai@qbitai.com,标题注明【投稿】,并告诉我们:你是谁,从哪来,投稿内容附上项目/主页链接,以及联系方式。
🌟 点亮星标 🌟
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢