image.png

论文链接:
https://arxiv.org/abs/2210.02075
项目主页:
https://lishiqianhugh.github.io/LfID_Page/

近日,人工智能领域国际顶级会议 NeurIPS 2022 在美国新奥尔良落下帷幕。本文是对北京通用人工智能研究院认知计算与常识推理实验室(https://www.bigai.ai/department/)联合北大人工智能研究院发表在NeurIPS 2022上的论文 On the Learning Mechanisms in Physical Reasoning 的介绍。先前研究者普遍认为解决复杂物理推理游戏需要基于动态轨迹预测,本研究质疑了原有的假设,并通过实验证明了智能体通过直觉也能解决复杂的物理难题。

1.gif

一、研究背景

人类在解决生活中的物理难题时候有两种推理模式,第一种是基于直觉的推理,例如看到一摞堆叠的物体,能够直接通过直觉迅速判断出是否会倒,如图1,第二种是基于动态轨迹的推理,例如在多物体交互的游戏中通过想象各物体的运动轨迹来判断最终的游戏状态,如图2中的物理推理游戏[2]。

2.png

图1:判断堆叠的物体是否稳定[1]

3.png

图2:物理推理游戏,通过放置一个工具使得红球到达绿色区域[2]

 

先前研究者普遍认为解决这类复杂物理推理游戏需要基于动态轨迹预测,即首先训练一个动态轨迹预测模型去预测每一个时间节点各个物体的状态(位置,速度等),然后据此判断最终游戏的目标是否会被达到 [4, 5, 6]。

二、论证方法

本文[8]质疑了原有的假设,并通过实验证明了智能体通过直觉也能解决复杂的物理难题,即只让智能体从初始场景中学习,然后直接给出最终任务成功或者失败的判断,而不需要从初始场景中预测未来物体可能的轨迹。

本文在一个类似的物理推理数据集 PHYRE [3]上做了实验,PHYRE提供了一系列在二维世界中的物理难题,每一个物理难题都有一个目标状态(如让绿色的球碰到紫色的物体)和一个初始状态,这些难题可以通过在环境中放置一个或多个新的物体被解决,模拟器会自动运行,来检验放置新物体的动作能否达到目标状态。

除此之外,本文还通过实验论证了从动态轨迹中学习的潜在不足,并为未来物理推理的研究提供了具有前景的方向。本文共设计了如下四个实验逐步展开论证。

4.gif

图3:物理推理游戏PHYRE(来自https://phyre.ai/

 

实验一:对先前固有观念提出挑战

在第一个实验中,我们将从直觉中学习的模型和目前在PHYRE任务上表现最好的动态轨迹模型RPIN进行了比较,发现从直觉中学习的模型达到了和RPIN同样的表现,并且在从没见过的任务上表现超过了RPIN。这一现象有力的验证了从直觉中学习的巨大潜力,并对从轨迹中学习的固有观念提出了挑战。

实验二:理论上来讲,动态轨迹到底对物理难题的解决有没有帮助呢?

受到第一个实验的启发,本文设计了第二个实验来验证动态轨迹到底对于最终任务状态的判断是否有用。为了回答这个问题,本文从模拟器中直接抽取了各个物体的真实运动轨迹,据此让智能体判断能否达到最终的目标,实验结果发现,无论是在相似游戏场景测试(within)还是从未见过的游戏场景测试(cross)下,随着智能体输入轨迹帧数的增多(1,2,4,8),智能体解决物理游戏的表现都会变好(见图2),由此得出结论:如果提供准确的轨迹,动态预测会对物理难题的解决有帮助。

5.png

图4:智能体解决物理游戏的表现随输入轨迹帧数的变化

 

实验三:为什么实际应用中,动态轨迹对物理难题的解决没有帮助呢?

那么既然动态轨迹预测对于物理难题的解决确实有用,那为什么实际应用中,通过设计动态模型预测轨迹对于物理问题的解决没有积极作用呢?为了回答这个问题,本文设计了一种动态轨迹预测模型,通过严格的变量控制,来进行消融实验。具体地,对比了直觉模型(只有任务状态判断模块),串行动态预测模型(先训练动态预测模块,再训练任务状态判断模块)和并行动态预测模型(同时训练动态预测模块和任务状态判断模块)在相同训练设置下的表现,实验结果显示:

  1. 串行动态预测模型变现还不如直觉模型,因为动态预测模块很难获得像实验二中的精准轨迹,所以给后续的任务状态判断模块引入了噪声,反而对问题的解决带来了负面影响。

  2. 并行动态预测模型退化成了直觉模型,因为同时训练动态预测模块和任务状态判断模块可以让模型将更多注意力转移到最终任务状态的判断上,通过忽视动态预测模块预测出的轨迹来避免其引入的负面干扰。

通过这两点可以得出结论:实际设计的从轨迹中学习的模型因为不可避免地具有不准确性和噪声,所以反而干扰了最终任务状态的判断,表现近似或不如直觉模型。

6.png

图5:串行并行动态预测模型预测出的轨迹

 

实验四:更多的直觉模型

基于此,本文设计了第四个实验,尝试测试更多从直觉中学习的模型来进一步验证其有效性。实验结果发现,这些模型达到了或超过了从轨迹中学习的模型的表现(见表1),而且从直觉中学习的模型流程简单,也符合人类利用常识知识(AI中的暗物质[7])对游戏解的直觉性判断(如放置的红色小球应该在距离绿球相对近的地方并且能够对其施加某种影响,见图3),可谓一种有用且高效的方法。

7.png

图6:直觉模型对PHYRE游戏的解决方案

8.png

表1:从直觉中学习和从轨迹中学习模型的表现对比

内容中包含的图片若涉及版权问题,请及时与我们联系删除