Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom

2024年04月30日
  • 简介
    理解话语的非字面含义对于大型语言模型(LLMs)变得像人类一样的社交交流者至关重要。在这项工作中,我们介绍了SwordsmanImp,这是第一个基于多轮对话的中文会话含蓄暗示数据集,其来源于中国情景喜剧《武林外传》中的对话。它包括200个精心制作的问题,所有问题都注明了哪些Gricean maxims被违反了。我们在两个任务下测试了八个闭源和开源的LLMs:多项选择题任务和含蓄暗示解释任务。我们的结果表明,GPT-4在多项选择题上达到了人类水平的准确率(94%)。CausalLM在GPT-4之后展示了78.5%的准确率。其他模型,包括GPT-3.5和几个开源模型,在多项选择题上的准确率较低,范围在20%到60%之间。人类评分员被要求评估LLMs生成的含蓄暗示的解释在合理性、逻辑和流畅性方面的得分。虽然所有模型生成的文本都非常流畅和自洽,但它们的解释在合理性方面得分较低,除了GPT-4之外,这表明大多数LLMs无法产生令人满意的对话中的含蓄暗示的解释。此外,我们发现LLMs的表现在Gricean maxims上没有显著差异,这表明LLMs似乎不会以不同的方式处理从不同maxims中推导出的含蓄暗示。我们的数据和代码可在https://github.com/sjtu-compling/llm-pragmatics上获得。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决中文多轮对话中的言外之意理解问题,并提出了一个新的数据集和评估方法。这是一个新的问题。
  • 关键思路
    论文提出了一个基于Gricean maxims的评估方法,并使用了一个新的中文多轮对话数据集SwordsmanImp。实验结果表明,当前的大型语言模型在理解言外之意方面表现不佳,但GPT-4可以达到人类水平的准确性。
  • 其它亮点
    论文的亮点包括提出了一个新的中文多轮对话数据集和评估方法,使用了8个不同的大型语言模型进行了实验比较,并发现GPT-4可以达到人类水平的准确性。此外,论文还强调了当前大型语言模型在理解言外之意方面的不足,并指出了需要进一步研究的方向。
  • 相关研究
    最近的相关研究包括基于Gricean maxims的言外之意理解、多轮对话数据集的构建以及大型语言模型的性能评估等。其中一些相关论文包括:《A Corpus-based Study of Implicature Understanding in Dialogue Systems》、《MultiWOZ 2.1: A Consolidated Multi-Domain Dialogue Dataset with State Corrections and State Tracking Baselines》和《Evaluating Large Language Models Trained on Code》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问