Post-Semantic-Thinking: A Robust Strategy to Distill Reasoning Capacity from Large Language Models

2024年04月14日
  • 简介
    链式思维微调旨在赋予小型学生模型推理能力,通过允许它们模仿大型语言模型(LLMs)的推理过程来提高它们在特定任务中的性能,而不仅仅是预测问题的答案。然而,现有的方法存在以下问题:1)在回答问题之前生成了理由,使得其回答的正确性对理由中的臆想非常敏感;2)强制学生模型逐字重复LLMs的理由表达式,这可能导致模型偏向于学习理由中的表达式,而不是理解其背后的核心逻辑。因此,我们提出了一种稳健的后语义思考(PST)策略,先生成答案再生成理由。由于这种先回答的设置,1)回答过程可以避免由理由中的臆想引起的不良影响;2)复杂的推理过程与相对简洁的答案紧密结合,使得在答案中的先验信息的帮助下,问题的推理更容易;3)该方法的效率也可以从设置中受益,因为当进行推理时,用户可以在输出答案后立即停止生成。此外,PST策略放宽了对生成的理由与LLMs黄金标准在词汇空间中接近的约束,而是在隐藏的语义空间中接近,从而使小型学生模型更好地理解理由中的语义推理逻辑。在12个推理任务上进行的广泛实验证明了PST的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    如何通过后语义思考策略来提高小型学生模型的推理能力?
  • 关键思路
    通过在生成理由之前先生成答案,使得小型学生模型能够更好地理解语言模型的推理逻辑,并且避免了理由中的幻觉对答案准确性的影响。
  • 其它亮点
    该论文提出的后语义思考策略可以提高小型学生模型的推理能力,实验结果表明其有效性。论文使用了12个推理任务的数据集,并且开源了代码。
  • 相关研究
    与该论文相关的研究包括语言模型的推理能力提升、小型学生模型的优化等方面的研究。相关论文包括《Improving Language Understanding by Generative Pre-Training》、《TinyBERT: Distilling BERT for Natural Language Understanding》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问