The Art of Refusal: A Survey of Abstention in Large Language Models

简介

拒绝回答，即大型语言模型（LLM）拒绝提供答案，越来越被认为具有缓解幻觉和增强构建LLM系统的安全性的潜力。在本调查中，我们介绍了一个框架，从查询、模型和人类价值三个角度来研究拒绝回答的行为。我们回顾了有关拒绝回答方法（基于LLM开发阶段进行分类）、基准测试和评估指标的文献，并讨论了先前工作的优点和局限性。我们进一步确定并激励未来研究领域，例如鼓励将拒绝回答作为跨任务的元能力进行研究，并根据上下文自定义拒绝回答能力。通过这样做，我们旨在扩大拒绝回答方法在人工智能系统中的范围和影响。
图表
解决问题

研究LLMs在处理问题时的拒绝回答行为（Abstention behavior）对于减少幻觉和提高安全性的潜力进行探究。
关键思路

提出了一个从查询、模型和人类价值观三个角度来考察拒绝回答行为的框架，并回顾了已有的相关研究，探讨了其优缺点。
其它亮点

论文提出了一些未来研究的方向，如将拒绝回答行为作为一种元能力跨任务进行研究，以及根据上下文自定义拒绝回答的能力。
相关研究

最近的相关研究包括：《A Survey on Abstention in Natural Language Processing》、《Abstention in Interactive Question Answering》等。