大型语言模型在各种自然语言生成任务中表现出了出色的生成能力。然而,可能的拟人化和对失败案例的宽容性已经推动了对大型语言模型新兴能力的讨论,特别是关于大型语言模型中的心理理论(ToM)能力。虽然存在几种错误信念测试来验证推断和维护另一个实体的心理模型的能力,但我们研究了ToM能力的一个特殊应用,它具有更高的风险和可能不可逆的后果:人机交互。在这项工作中,我们探讨了感知行为识别任务,其中机器人使用大型语言模型(LLM)以类似于人类观察者的方式评估机器人生成的行为。我们专注于四种行为类型,即可解释的、易读的、可预测的和混淆的行为,这些行为类型已广泛用于合成可解释的机器人行为。因此,LLM的目标是成为代理人的人类代理,并回答一个问题,即“给定机器人的行为X,人类观察者会发现它是可解释的吗?”我们进行了一项人类主体研究,以验证用户能够在策划的情况(机器人设置和计划)下正确回答这样的问题,跨越五个领域。对信念测试的第一次分析产生了极为积极的结果,让人对LLM具有ToM能力的期望值膨胀。然后,我们提出并执行了一系列扰动测试,打破了这种幻觉,即不一致的信念、无信息的上下文和信念测试。我们得出结论,LLM在基本提示上的高分显示了它在HRI设置中的潜在用途,然而,要具有ToM需求,必须对上下文中的琐碎或不相关扰动具有不变性,而LLM缺乏这种能力。
提问交流