The Art of Refusal: A Survey of Abstention in Large Language Models

2024年07月25日
  • 简介
    拒绝回答,即大型语言模型(LLM)拒绝提供答案,越来越被认为具有缓解幻觉和增强构建LLM系统的安全性的潜力。在本调查中,我们介绍了一个框架,从查询、模型和人类价值三个角度来研究拒绝回答的行为。我们回顾了有关拒绝回答方法(基于LLM开发阶段进行分类)、基准测试和评估指标的文献,并讨论了先前工作的优点和局限性。我们进一步确定并激励未来研究领域,例如鼓励将拒绝回答作为跨任务的元能力进行研究,并根据上下文自定义拒绝回答能力。通过这样做,我们旨在扩大拒绝回答方法在人工智能系统中的范围和影响。
  • 图表
  • 解决问题
    研究LLMs在处理问题时的拒绝回答行为(Abstention behavior)对于减少幻觉和提高安全性的潜力进行探究。
  • 关键思路
    提出了一个从查询、模型和人类价值观三个角度来考察拒绝回答行为的框架,并回顾了已有的相关研究,探讨了其优缺点。
  • 其它亮点
    论文提出了一些未来研究的方向,如将拒绝回答行为作为一种元能力跨任务进行研究,以及根据上下文自定义拒绝回答的能力。
  • 相关研究
    最近的相关研究包括:《A Survey on Abstention in Natural Language Processing》、《Abstention in Interactive Question Answering》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论