Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning

2024年05月22日
  • 简介
    指令调整的过程是将预训练的大型语言模型(LLMs)与开放域指令和人类首选响应对齐的过程。尽管已经有多项研究探索了从更强大的专有LLMs(如ChatGPT)中提取和注释指令的自主方法,但它们经常忽略任务分布和训练集中指令的不同难度对影响。这种疏忽可能导致小型学生LLMs的知识能力不平衡和泛化能力差。为了解决这个挑战,我们引入了面向任务的课程规划指令精炼(TAPIR),这是一个多轮蒸馏框架,具有平衡的任务分布和动态难度调整。该方法利用一个oracle LLM选择对学生LLM难以跟随的指令,并蒸馏具有平衡任务分布的指令。通过纳入课程规划,我们的方法系统地升级难度级别,逐步增强学生LLM的能力。我们使用两个广泛认可的基准测试(包括AlpacaEval 2.0和MT-Bench)对TAPIR进行了严格评估。实证结果表明,使用我们的方法和更少的训练数据训练的学生LLMs优于较大的指令调整模型和强大的蒸馏基线。改进在复杂任务中尤为显著,如逻辑推理和代码生成。
  • 图表
  • 解决问题
    本论文旨在解决指令调整中的任务分布和难度不平衡问题,提出了一种名为TAPIR的多轮蒸馏框架,通过识别难以遵循的指令并蒸馏具有平衡任务分布的指令来动态调整难度水平,从而提高学生LLM的能力。
  • 关键思路
    TAPIR框架通过综合利用LLM来识别难以遵循的指令和平衡任务分布来动态调整难度水平,从而提高学生LLM的能力。
  • 其它亮点
    论文使用两个广泛认可的基准测试数据集AlpacaEval 2.0和MT-Bench进行了严格评估,证明了使用TAPIR方法训练的学生LLM在较少的训练数据下优于较大的指令调整模型和强大的蒸馏基线。在复杂任务中,如逻辑推理和代码生成,改进尤为显着。
  • 相关研究
    最近的相关研究包括:《Distilling Task-Specific Knowledge from BERT into Simple Neural Networks》、《Distilling Robust Knowledge from a Teacher Model》、《TinyBERT: Distilling BERT for Natural Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论