斯坦福｜用语言模型理解语言模型的社交推理

Understanding Social Reasoning in Language Models with Language Models

Kanishk Gandhi, Jan-Philipp Fränken, Tobias Gerstenberg, Noah D. Goodman
[Stanford University]

用语言模型理解语言模型的社交推理

随着大型语言模型(LLM)越来越多地融入我们的日常生活，理解它们理解人类心智状态的能力对于确保有效的交互变得至关重要。然而，尽管最近有尝试评估LLM的心智理论(ToM)推理能力，但这些模型能在多大程度上与人类ToM保持一致仍是一个需要探讨的复杂话题。

方法：提出一种新框架，通过填充因果模板，使用LLM程序化生成评估。使用该框架，创建了一个新的社会推理基准(BigToM)，包括25个控制和5000个模型编写的评估。
优势：提供了一种新方法来评估LLM的社会推理能力，并与人类的表现进行比较。结果表明，GPT4具有类似人类的ToM推理能力，尽管不太可靠，而其他LLM则表现不佳。

提出了一种新框架，通过填充因果模板，使用LLM程序化生成评估，以评估其社会推理能力，并发现GPT4具有类似人类的推理能力。

内容中包含的图片若涉及版权问题，请及时与我们联系删除