Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models

2025年05月20日
  • 简介
    遵循指令对于将大语言模型(LLMs)与用户意图对齐至关重要。尽管最近以推理为导向的模型在复杂数学问题上表现出令人印象深刻的性能,但它们遵循自然语言指令的能力仍然未被充分研究。在这项工作中,我们引入了 MathIF,这是一个专门用于评估数学推理任务中指令遵循能力的基准测试。我们的实证分析揭示了一个一致的矛盾:即扩大推理能力与保持可控性之间的张力,因为那些推理更有效的模型往往难以遵守用户的指示。我们发现,基于提炼后的长链思维或通过以推理为导向的强化学习进行训练的模型,在遵循指令方面常常会退化,尤其是在生成长度增加时更为明显。此外,我们还表明,即使是一些简单的干预措施也可以部分恢复模型的服从性,但这通常是以推理性能的下降为代价的。这些发现突显了当前大语言模型训练范式中存在的一种基本矛盾,并激励了对更具指令意识的推理模型的需求。我们在 https://github.com/TingchenFu/MathIF 上发布了代码和数据。
  • 图表
  • 解决问题
    论文试图解决大型语言模型在数学推理任务中指令遵循能力不足的问题。尽管现有模型在复杂数学问题上表现出色,但它们在遵循自然语言指令方面的表现仍需改进。这是一个需要进一步探索的领域。
  • 关键思路
    论文提出了一种新的基准测试工具MathIF,用于评估语言模型在数学推理任务中的指令遵循能力。研究发现,随着模型推理能力的增强,其对用户指令的可控性可能会下降。这一发现揭示了当前大型语言模型训练范式中的根本矛盾。
  • 其它亮点
    论文设计了一系列实验,通过分析不同模型在生成长度增加时的表现,验证了推理能力和指令遵循之间的权衡。此外,作者还展示了简单的干预措施可以部分恢复模型的指令遵循能力,但会牺牲推理性能。代码和数据已开源至https://github.com/TingchenFu/MathIF,为后续研究提供了宝贵的资源。
  • 相关研究
    相关研究包括Chain-of-Thought Prompting、ReAct等方法,这些方法通过强化推理过程或引入外部反馈来提升模型性能。其他相关工作如《Evaluating Large Language Models Trained on Code》和《Reasoning in Large Language Models: Opportunities and Challenges》也探讨了模型推理能力与控制性的关系。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论