- 简介大型语言模型(LLMs)越来越被用于满足用户信息需求,但它们在处理包含各种歧义类型的用户查询时的效果仍未知,最终可能会危及用户的信任和满意度。为此,我们介绍了CLAMBER,这是一个使用组织良好的分类法评估LLMs的基准。在分类法的基础上,我们构建了约12K个高质量的数据,以评估各种现成的LLMs的优点、缺点和潜在风险。我们的研究结果表明,目前的LLMs在识别和澄清含糊不清的用户查询方面的实际效用有限,即使加强了CoT和few-shot prompting。这些技术可能会导致LLMs过于自信,并且在识别歧义方面只能产生微小的增强。此外,由于缺乏冲突解决和不准确利用固有知识,目前的LLMs在生成高质量的澄清问题方面存在不足。在本文中,CLAMBER提供了指导,并促进了进一步研究主动和值得信赖的LLMs。我们的数据集可在https://github.com/zt991211/CLAMBER上获取。
-
- 图表
- 解决问题评估当前大型语言模型在处理歧义查询时的效果,以及发现其中存在的问题和潜在风险。
- 关键思路构建一个分类清晰的基准测试集CLAMBER,评估当前的大型语言模型在歧义查询的识别、澄清和提问方面的表现,并发现它们的局限性和不足。
- 其它亮点论文使用了一个分类清晰的基准测试集CLAMBER,评估了当前的大型语言模型在歧义查询的处理中的表现。实验结果表明,当前的大型语言模型在歧义查询的识别、澄清和提问方面的表现有限,即使使用了CoT和few-shot prompting技术也只能获得较小的改进。此外,当前的大型语言模型在生成高质量的澄清问题方面也存在问题。论文呼吁进一步研究主动和可信的大型语言模型。
- 最近的相关研究包括:《GPT Understands, Too》、《A Survey of Methods for Explaining Black Box Models》、《How Can We Know What Language Models Know?》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流