- 简介大型语言模型(LLMs)被适应为遵循用户指令的会话代理已经广泛部署。在这项工作中,我们研究了一个越来越常见的指令遵循任务:提供写作帮助以撰写长篇答案。为了评估当前LLMs在这项任务上的能力,我们构建了KIWI,一个知识密集型科学领域写作指令的数据集。给定一个研究问题、一个初始模型生成的答案和一组相关论文,一个专家注释员迭代地发布指令,让模型修改和改进其答案。我们从三个最先进的LLMs中收集了234个交互会话中的1,260个交互轮次。每个轮次包括一个用户指令、一个模型响应和一个人类对模型响应的评估。通过对收集到的响应进行详细分析,我们发现所有模型都难以将新信息融入现有答案,并进行精确和明确的编辑。此外,我们发现模型难以判断它们的输出是否成功遵循了用户指令,准确率至少比人类一致性低10个百分点。我们的研究结果表明,KIWI将是一个有价值的资源,用于衡量进展并改进LLMs在知识密集型写作任务中遵循指令的能力。
- 图表
- 解决问题研究LLMs在提供科学领域长篇回答写作辅助时的指令跟进能力,并提出KIWI数据集用于评估和改进模型能力。
- 关键思路通过构建KIWI数据集,使用三种最先进的LLMs,让专业注释人员迭代发出指令,评估模型在改进回答时的表现,并发现模型在整合新信息、进行精确且明确的编辑以及判断是否成功遵循用户指令等方面存在困难。
- 其它亮点KIWI数据集可用于测量和改进LLMs的指令跟进能力,实验结果表明模型的表现有待提高,值得进一步研究。
- 近期相关研究包括使用LLMs进行自然语言生成和对话系统设计等。
沙发等你来抢
去评论
评论
沙发等你来抢