NegotiationToM: A Benchmark for Stress-testing Machine Theory of Mind on Negotiation Surrounding

2024年04月21日
  • 简介
    大型语言模型(LLM)引起了人们的广泛关注和争议,涉及到它们潜在的心智理论能力。目前,心智理论评估主要集中在测试使用机器生成的数据或易受捷径和虚假相关性影响的游戏设置的模型,这缺乏对机器在真实人类交互情境中心智理论能力的评估。这提出了开发新的真实情境基准的紧迫需求。我们引入了NegotiationToM,这是一个新的基准,旨在在涵盖多维心智状态(即欲望、信念和意图)的真实谈判环境中对机器的心智理论进行压力测试。我们的基准建立在信念-欲望-意图(BDI)代理建模理论之上,并进行必要的实证实验来评估大型语言模型。我们的发现表明,NegotiationToM对于最先进的LLM来说是具有挑战性的,因为它们在使用思维链(CoT)方法时仍然表现明显劣于人类。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决大语言模型在真实世界人机互动场景中的心智理论能力(Theory of Mind,ToM)不足的问题,提出了一种新的基于BDI智能体建模理论的评估基准——NegotiationToM。
  • 关键思路
    NegotiationToM是一种新的评估基准,旨在对大型语言模型的ToM能力进行真实世界的压力测试。
  • 其它亮点
    论文使用了Belief-Desire-Intention(BDI)智能体建模理论,进行了必要的实证实验来评估大型语言模型。实验结果表明,即使使用了链式思考(CoT)方法,现有的LLMs在NegotiationToM基准测试中表现不如人类。
  • 相关研究
    最近的相关研究包括:1.《大型语言模型的心智理论能力评估:挑战和前景》;2.《使用机器人和人类主体的协商对话中的心理理论能力》;3.《利用心智模拟来提高对话机器人的情感和社交智能》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问