- 简介我们介绍了一个新的框架,LM-Guided CoT,它利用一个轻量级(即<1B)的语言模型(LM)来指导一个黑盒子的大型(即>10B)LM在推理任务中。具体而言,轻量级LM首先为每个输入实例生成一个理由。然后,冻结的大型LM被提示根据轻量级LM生成的理由来预测任务输出。我们的方法在资源效率上非常高,因为它只需要训练轻量级LM。我们通过1)知识蒸馏和2)从面向理由和任务的奖励信号中进行强化学习来优化模型。我们使用多跳抽取式问答基准HotpotQA和2WikiMultiHopQA来评估我们的方法。实验结果表明,我们的方法在答案预测准确性方面优于所有基线。我们还发现,强化学习有助于模型产生更高质量的理由,并提高了问答的性能。
- 图表
- 解决问题本论文旨在提出一种新的框架LM-Guided CoT,利用轻量级的语言模型(LM)来引导黑盒大型的语言模型(LM)在推理任务中进行推理。这个框架的目的是提高模型的效率和准确性。
- 关键思路该论文的关键思路是,首先使用轻量级的语言模型生成每个输入实例的推理,然后使用大型的语言模型根据轻量级语言模型生成的推理来预测任务输出。同时,该论文提出了两种优化模型的方法:知识蒸馏和强化学习。
- 其它亮点该论文的亮点包括:1. 通过使用轻量级的语言模型,该框架可以在不牺牲准确性的情况下提高模型的效率;2. 该框架在HotpotQA和2WikiMultiHopQA等多跳抽取式问答基准测试中表现出了优异的性能;3. 该论文提出的两种优化模型的方法:知识蒸馏和强化学习,可以进一步提高模型的性能。
- 在最近的研究中,也有很多类似的工作,例如:《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》、《TinyBERT: Distilling BERT for Natural Language Understanding》等。
沙发等你来抢
去评论
评论
沙发等你来抢