- 简介大型语言模型(LLMs)在许多应用中展示了卓越的潜力,并显示了解决复杂推理任务(如数学计算)的新兴能力。然而,即使是最简单的算术计算,LLMs的内在机制仍然是神秘的,这使得确保可靠性具有挑战性。在这项工作中,我们深入探讨了LLMs执行计算的具体机制。通过全面的实验,我们发现LLMs经常涉及少量(<5%)的注意力头,在计算过程中起着关键作用,专注于操作数和运算符。随后,这些操作数的信息通过多层感知机(MLPs)进行处理,逐步导致最终解决方案。这些关键头部/MLPs虽然在特定数据集上进行了识别,但在不同数据集甚至不同任务中也具有可转移性。这一发现促使我们调查有选择地微调这些关键头部/MLPs以提高LLMs的计算性能的潜在好处。我们实证发现,这种精确调整可以显著提高数学能力,而不会影响非数学任务的表现。我们的工作作为对LLMs内在算术计算能力的初步探索,为揭示更复杂的数学任务奠定了坚实的基础。
-
- 图表
- 解决问题探究大型语言模型(LLMs)在执行算术计算时的内在机制,以提高其可靠性和计算性能。
- 关键思路LLMs 在算术计算中使用少量关注头和多层感知器(MLPs)进行计算,这些头/MLPs 在不同数据集和任务中具有可迁移性,精确调整这些关键头/MLPs 可以提高 LLMs 的计算性能。
- 其它亮点论文通过实验发现 LLMs 在算术计算中使用少量关键的注意力头和多层感知器,这些头/MLPs 在不同数据集和任务中具有可迁移性;论文还发现精确调整这些关键头/MLPs 可以提高 LLMs 的计算性能,而不会影响其在非数学任务上的表现。
- 在这个领域中,最近的相关研究包括《GShard:用于大规模多任务和多模型训练的通用分布式训练框架》、《语言模型集成和知识蒸馏》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流