- 简介自主系统即将无处不在,从制造业自主性到农业现场机器人,从医疗保健助手到娱乐产业。这些系统的大多数都是通过决策制定、规划和控制的模块化子组件开发的,这些子组件可以是手工设计的或基于学习的。虽然这些现有方法已经被证明在它们专门设计的情况下表现良好,但在测试时不可避免地会出现罕见的、超出分布范围的情况,它们的表现可能会特别差。基于多个任务进行训练的基础模型的崛起,这些模型使用了来自各个领域的大规模数据集,研究人员认为这些模型可能提供现有规划者所缺少的常识推理。研究人员认为,这种常识推理将弥合算法开发和部署到超出分布任务之间的差距,就像人类适应意外情况一样。大型语言模型已经进入了机器人和自主系统领域,研究人员正在争先恐后地展示它们在部署中的潜在用例。虽然这个应用方向在经验上非常有前途,但基础模型已经被证明会产生幻觉并生成听起来合理但实际上很差的决策。我们认为有必要退一步,同时设计能够量化模型决策的确定性,并检测它可能产生幻觉的系统。在这项工作中,我们讨论了基础模型用于决策任务的当前用例,提供了幻觉的一般定义和示例,讨论了现有的幻觉检测和缓解方法,重点关注决策问题,并探讨了这一激动人心领域的进一步研究领域。
-
- 图表
- 解决问题基于基础模型的决策系统如何在面对未知情况时产生可靠的决策?
- 关键思路使用基础模型进行决策任务,并结合不确定性评估和幻觉检测技术,以提高决策的可靠性。
- 其它亮点该论文讨论了基础模型在决策任务中的应用,强调了在不确定性情况下检测幻觉的重要性。论文介绍了现有的幻觉检测和缓解方法,并探讨了未来研究的方向。
- 最近的相关研究包括使用基础模型进行决策任务的论文,以及在幻觉检测和缓解方面的其他研究,如《Detecting and Correcting for Label Shift with Black Box Predictors》和《Towards Robust Evaluations of Continual Learning》。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流