- 简介大型语言模型(LLMs)在解决数学问题方面表现出相当的能力。然而,当遇到包含不合理错误的问题时,它们往往会产生幻觉。本文研究了LLMs在面对不合理数学问题时的行为,并进一步探讨它们解决这些问题的潜力。我们构建了不合理数学问题UMP基准来检验LLMs的错误检测能力。实验表明,LLMs能够检测不合理错误,但在生成非幻觉内容方面仍然失败。为了提高它们的错误检测和纠正能力,我们进一步设计了一种战略提示模板,称为Critical Calculation and Conclusion(CCC)。使用CCC,LLMs可以更好地自我评估和检测数学问题中的不合理错误,使它们在实际应用场景中更加可靠和安全。
-
- 图表
- 解决问题本论文旨在研究大型语言模型在解决数学问题时的能力,并探索其处理不合理问题的潜力。
- 关键思路通过构建Unreasonable Math Problem (UMP)基准,研究LLMs的错误检测能力,并设计了一种名为Critical Calculation and Conclusion (CCC)的策略提示模板,以提高LLMs的错误检测和纠正能力。
- 其它亮点实验表明,LLMs能够检测不合理错误,但仍然难以生成非幻觉性的内容。CCC策略提示模板使LLMs能够更好地自我评估和检测数学问题中的不合理错误,从而使它们在实际应用场景中更可靠和安全。
- 在这个领域中,最近的相关研究包括:GPT-3、BERT等大型语言模型在数学问题中的应用,以及基于知识图谱和图神经网络的数学问题求解方法等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流