Is the Pope Catholic? Yes, the Pope is Catholic. Generative Evaluation of Intent Resolution in LLMs

2024年05月14日
  • 简介
    人类通常会以间接或非文学的方式表达他们的交际意图,这需要他们的交流对象——无论是人类还是AI——理解超出字面意义的含义。虽然大多数现有的工作都集中在判别式评估上,但我们提出了一种新方法,通过检查大型语言模型对非文学话语的反应来生成评估它们的意图理解能力。理想情况下,一个LLM应该根据非文学话语的真实意图而不是字面解释来回应。我们的研究结果表明,LLM在生成与语用相关的非文学语言响应方面存在困难,平均准确率仅为50-55%。虽然明确提供神谕意图显著提高了性能(例如,Mistral-Instruct的准确率达到了75%),但这仍然表明利用给定的意图产生适当的响应存在挑战。使用思维链来使模型拼写出意图的收益要小得多(Mistral-Instruct为60%)。这些研究结果表明,LLM尚未成为有效的语用交流对象,突显了需要更好的方法来建模意图并利用它们进行语用生成的必要性。
  • 图表
  • 解决问题
    评估大型语言模型(LLMs)在理解非字面语言时的表现,即理解非直接或非字面表达的交际意图。
  • 关键思路
    使用生成式评估方法,通过检查LLMs对非字面话语的回应来评估其意图理解能力,发现LLMs在处理非字面语言时表现不佳,仅平均达到50-55%的准确率。
  • 其它亮点
    论文使用了生成式评估方法,并提供了oracle意图来明确意图,发现这样可以显著提高LLMs的表现。但使用chain-of-thought方法使模型拼出意图的收益较小。研究表明,LLMs还不能成为有效的语用交互者,需要更好的方法来建模意图并利用它们进行语用生成。
  • 相关研究
    最近的相关研究主要集中在理解非字面语言方面,例如情感分析、对话系统等。相关论文包括《Affect-aware Conversational Agent》、《Dialogue System for Non-literal Language Understanding》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论