- 简介本文介绍了先进的SaySelf训练框架,它教会了大型语言模型(LLMs)表达更准确的细粒度置信度估计,并启动了指导LLMs产生自我反思理由的过程,以清晰地识别其参数化知识中的差距并解释其不确定性。这是通过使用LLM自动总结特定知识中的不确定性来实现的,总结基于多个采样推理链中的不一致性分析,所得数据用于监督微调。此外,本文还利用精心设计的奖励函数进行强化学习来校准置信度估计,以激励LLMs提供准确、高置信度的预测,并惩罚错误输出中的过度自信。在内部和外部分布数据集上的实验结果表明,SaySelf在减少置信度校准误差和保持任务性能方面具有有效性。本文还展示了生成的自我反思理由是合理的,并且可以进一步促进校准。该代码已在\url{https://github.com/xu1868/SaySelf}上公开。
- 图表
- 解决问题本文试图解决大语言模型(LLMs)的置信度不准确或虚假的问题,以及缺乏自我反思的能力,限制了其广泛应用的问题。
- 关键思路本文提出了一种训练框架——SaySelf,通过自动总结多个推理链中的不一致性,从而教授LLMs表达更准确的细粒度置信度评估,并启动自我反思的过程,以清楚地识别其参数知识中的差距和解释其不确定性。
- 其它亮点该方法使用强化学习和精心设计的奖励函数来校准置信度评估,鼓励LLMs提供准确、高置信度的预测,并惩罚错误输出的过度自信。实验结果表明,SaySelf在减少置信度校准误差和保持任务性能方面非常有效。生成的自我反思理由是合理的,并且可以进一步促进置信度校准。代码已在GitHub上公开。
- 最近的相关研究包括使用直接或自一致提示来引出置信度的方法,以及构建特定数据集进行监督微调的方法。然而,这些方法的性能较差或受到限制。
沙发等你来抢
去评论
评论
沙发等你来抢