Understanding Social Reasoning in Language Models with Language Models
Kanishk Gandhi, Jan-Philipp Fränken, Tobias Gerstenberg, Noah D. Goodman
[Stanford University]
用语言模型理解语言模型的社交推理
-
方法:提出一种新框架,通过填充因果模板,使用LLM程序化生成评估。使用该框架,创建了一个新的社会推理基准(BigToM),包括25个控制和5000个模型编写的评估。 -
优势:提供了一种新方法来评估LLM的社会推理能力,并与人类的表现进行比较。结果表明,GPT4具有类似人类的ToM推理能力,尽管不太可靠,而其他LLM则表现不佳。
提出了一种新框架,通过填充因果模板,使用LLM程序化生成评估,以评估其社会推理能力,并发现GPT4具有类似人类的推理能力。
https://arxiv.org/abs/2306.15448
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢