"I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust

2024年05月01日
  • 简介
    广泛部署的大型语言模型(LLMs)可以产生令人信服但不正确的输出,可能会误导用户,因为他们可能会依赖它们,就好像它们是正确的一样。为了减少这种过度依赖,有人呼吁LLMs向最终用户传达其不确定性。然而,很少有实证研究探讨用户如何感知和采取LLMs的不确定性表达。我们通过一项大规模、预注册的人体实验(N=404),研究参与者在有或没有访问来自虚构的LLM注入搜索引擎的响应的情况下回答医疗问题。使用行为和自我报告的测量,我们研究不同的自然语言不确定性表达如何影响参与者的依赖、信任和整体任务表现。我们发现第一人称表达(例如,“我不确定,但是…”)会降低参与者对系统的信心和同意系统答案的倾向,同时提高参与者的准确性。探索性分析表明,这种增加可以归因于对不正确答案的过度依赖减少(但并没有完全消除)。虽然我们观察到了从一般角度表达不确定性的类似效应(例如,“不清楚,但是…”),但这些效应较弱且不具有统计学意义。我们的发现表明,使用自然语言表达不确定性可能是减少对LLMs过度依赖的有效方法,但所使用的确切语言很重要。这凸显了在大规模部署LLMs之前进行用户测试的重要性。
  • 图表
  • 解决问题
    论文旨在探讨大型语言模型(LLMs)表达不确定性对用户信任、依赖和任务表现的影响,以减少用户过度依赖LLMs可能带来的错误输出。
  • 关键思路
    使用自然语言的第一人称表达不确定性可以降低用户对LLMs的信任和依赖,同时提高用户的准确性。
  • 其它亮点
    论文通过大规模、预注册的人类实验探讨了LLMs表达不确定性的影响,发现使用第一人称表达不确定性可以有效降低用户的过度依赖,同时提高准确性。实验使用了医学问题数据集,结果表明在LLMs中使用自然语言表达不确定性的方式可以减少错误输出的过度依赖。
  • 相关研究
    最近的相关研究主要集中在LLMs的不确定性表达上,例如使用置信度分数或不确定性度量来表达模型的不确定性。相关论文包括《Towards Robust Evaluations of Large Language Models》和《Quantifying Uncertainty in Natural Language Processing Tasks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问