Post-Semantic-Thinking: A Robust Strategy to Distill Reasoning Capacity from Large Language Models

简介

链式思维微调旨在赋予小型学生模型推理能力，通过允许它们模仿大型语言模型（LLMs）的推理过程来提高它们在特定任务中的性能，而不仅仅是预测问题的答案。然而，现有的方法存在以下问题：1）在回答问题之前生成了理由，使得其回答的正确性对理由中的臆想非常敏感；2）强制学生模型逐字重复LLMs的理由表达式，这可能导致模型偏向于学习理由中的表达式，而不是理解其背后的核心逻辑。因此，我们提出了一种稳健的后语义思考（PST）策略，先生成答案再生成理由。由于这种先回答的设置，1）回答过程可以避免由理由中的臆想引起的不良影响；2）复杂的推理过程与相对简洁的答案紧密结合，使得在答案中的先验信息的帮助下，问题的推理更容易；3）该方法的效率也可以从设置中受益，因为当进行推理时，用户可以在输出答案后立即停止生成。此外，PST策略放宽了对生成的理由与LLMs黄金标准在词汇空间中接近的约束，而是在隐藏的语义空间中接近，从而使小型学生模型更好地理解理由中的语义推理逻辑。在12个推理任务上进行的广泛实验证明了PST的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何通过后语义思考策略来提高小型学生模型的推理能力？
关键思路

通过在生成理由之前先生成答案，使得小型学生模型能够更好地理解语言模型的推理逻辑，并且避免了理由中的幻觉对答案准确性的影响。
其它亮点

该论文提出的后语义思考策略可以提高小型学生模型的推理能力，实验结果表明其有效性。论文使用了12个推理任务的数据集，并且开源了代码。
相关研究

与该论文相关的研究包括语言模型的推理能力提升、小型学生模型的优化等方面的研究。相关论文包括《Improving Language Understanding by Generative Pre-Training》、《TinyBERT: Distilling BERT for Natural Language Understanding》等。

Post-Semantic-Thinking: A Robust Strategy to Distill Reasoning Capacity from Large Language Models

提问交流

提问交流