CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models

向作者提问

NEW

简介

大型语言模型（LLMs）越来越被用于满足用户信息需求，但它们在处理包含各种歧义类型的用户查询时的效果仍未知，最终可能会危及用户的信任和满意度。为此，我们介绍了CLAMBER，这是一个使用组织良好的分类法评估LLMs的基准。在分类法的基础上，我们构建了约12K个高质量的数据，以评估各种现成的LLMs的优点、缺点和潜在风险。我们的研究结果表明，目前的LLMs在识别和澄清含糊不清的用户查询方面的实际效用有限，即使加强了CoT和few-shot prompting。这些技术可能会导致LLMs过于自信，并且在识别歧义方面只能产生微小的增强。此外，由于缺乏冲突解决和不准确利用固有知识，目前的LLMs在生成高质量的澄清问题方面存在不足。在本文中，CLAMBER提供了指导，并促进了进一步研究主动和值得信赖的LLMs。我们的数据集可在https://github.com/zt991211/CLAMBER上获取。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估当前大型语言模型在处理歧义查询时的效果，以及发现其中存在的问题和潜在风险。
关键思路

构建一个分类清晰的基准测试集CLAMBER，评估当前的大型语言模型在歧义查询的识别、澄清和提问方面的表现，并发现它们的局限性和不足。
其它亮点

论文使用了一个分类清晰的基准测试集CLAMBER，评估了当前的大型语言模型在歧义查询的处理中的表现。实验结果表明，当前的大型语言模型在歧义查询的识别、澄清和提问方面的表现有限，即使使用了CoT和few-shot prompting技术也只能获得较小的改进。此外，当前的大型语言模型在生成高质量的澄清问题方面也存在问题。论文呼吁进一步研究主动和可信的大型语言模型。
相关研究

最近的相关研究包括：《GPT Understands, Too》、《A Survey of Methods for Explaining Black Box Models》、《How Can We Know What Language Models Know?》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问