Raw Text is All you Need: Knowledge-intensive Multi-turn Instruction Tuning for Large Language Model

2024年07月03日
  • 简介
    指令调整是一种有效的技术,可以将大型语言模型(LLM)的输出与人类偏好对齐。但如何从原始文档中生成季节性的多轮对话以进行指令调整仍需要进一步探索。本文提出了一个名为R2S的新框架,利用对话逻辑的CoD-Chain来指导大型语言模型(LLMs)生成知识密集的多轮对话,以进行指令调整。通过将开源数据集和特定领域的网络爬虫文档的原始文档集成到基准K-BENCH中,我们涵盖了维基百科(英语)、科学(中文)和文物(中文)等多个领域。我们的方法首先确定当前对话的逻辑流程,然后提示LLMs生成源相关响应内容的关键短语。这种方法使得创建G INSTRUCT指令数据集成为可能,保留了对话式交互中的原始文档知识。利用这个数据集,我们对GLLM进行微调,这是一个旨在将原始文档转化为结构化多轮对话的模型,从而将全面的领域知识注入SFT模型以增强指令调整。这项工作意味着在各个领域中提高LLMs在处理和生成更准确、上下文更丰富的响应方面的适应性和有效性迈出了一步。
  • 图表
  • 解决问题
    论文旨在探索如何从原始文档中生成季节性多轮对话,以进行指令调整,并将领域知识注入SFT模型,从而提高LLMs的适应性和效果。这是一个新的问题。
  • 关键思路
    论文提出了一个名为R2S的框架,利用对话逻辑的CoD-Chain来指导LLMs生成知识密集型的多轮对话,并创建了GINSTRUCT指令数据集,将原始文档知识保留在对话式交互中。通过使用这个数据集,将GLLM模型用于指令调整,将领域知识注入SFT模型中。
  • 其它亮点
    论文将来自开源数据集和特定领域的网络爬取文档整合到基准K-BENCH中,涵盖了维基百科(英文)、科学(中文)和文物(中文)等多个领域。论文的方法首先确定当前对话的逻辑流程,然后提示LLMs生成用于获取相关响应内容的关键短语。实验结果表明,R2S框架可以有效地生成多轮对话,并提高LLMs的适应性和效果。
  • 相关研究
    最近在这个领域中,也有一些相关研究。例如,"A Survey of Multi-Task Learning in Natural Language Processing","Improving Question Answering with External Knowledge"等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论