Do Large Language Models Understand Conversational Implicature -- A case study with a chinese sitcom

向作者提问

NEW

简介

理解话语的非字面含义对于大型语言模型（LLMs）变得像人类一样的社交交流者至关重要。在这项工作中，我们介绍了SwordsmanImp，这是第一个基于多轮对话的中文会话含蓄暗示数据集，其来源于中国情景喜剧《武林外传》中的对话。它包括200个精心制作的问题，所有问题都注明了哪些Gricean maxims被违反了。我们在两个任务下测试了八个闭源和开源的LLMs：多项选择题任务和含蓄暗示解释任务。我们的结果表明，GPT-4在多项选择题上达到了人类水平的准确率（94%）。CausalLM在GPT-4之后展示了78.5%的准确率。其他模型，包括GPT-3.5和几个开源模型，在多项选择题上的准确率较低，范围在20%到60%之间。人类评分员被要求评估LLMs生成的含蓄暗示的解释在合理性、逻辑和流畅性方面的得分。虽然所有模型生成的文本都非常流畅和自洽，但它们的解释在合理性方面得分较低，除了GPT-4之外，这表明大多数LLMs无法产生令人满意的对话中的含蓄暗示的解释。此外，我们发现LLMs的表现在Gricean maxims上没有显著差异，这表明LLMs似乎不会以不同的方式处理从不同maxims中推导出的含蓄暗示。我们的数据和代码可在https://github.com/sjtu-compling/llm-pragmatics上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决中文多轮对话中的言外之意理解问题，并提出了一个新的数据集和评估方法。这是一个新的问题。
关键思路

论文提出了一个基于Gricean maxims的评估方法，并使用了一个新的中文多轮对话数据集SwordsmanImp。实验结果表明，当前的大型语言模型在理解言外之意方面表现不佳，但GPT-4可以达到人类水平的准确性。
其它亮点

论文的亮点包括提出了一个新的中文多轮对话数据集和评估方法，使用了8个不同的大型语言模型进行了实验比较，并发现GPT-4可以达到人类水平的准确性。此外，论文还强调了当前大型语言模型在理解言外之意方面的不足，并指出了需要进一步研究的方向。
相关研究

最近的相关研究包括基于Gricean maxims的言外之意理解、多轮对话数据集的构建以及大型语言模型的性能评估等。其中一些相关论文包括：《A Corpus-based Study of Implicature Understanding in Dialogue Systems》、《MultiWOZ 2.1: A Consolidated Multi-Domain Dialogue Dataset with State Corrections and State Tracking Baselines》和《Evaluating Large Language Models Trained on Code》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问