LLMs Get Lost In Multi-Turn Conversation

2025年05月09日
  • 简介
    大型语言模型(LLMs)是对话接口。因此,LLMs 不仅可以在用户完全明确任务时提供帮助,还可以通过多轮对话交互来协助用户定义、探索和细化他们的需求。尽管对 LLM 对话日志的分析表明,用户指令中频繁出现未充分指定的情况,但 LLM 的评估主要仍集中在单轮、完全指定指令的场景中。在这项工作中,我们进行了大规模模拟实验,以比较 LLM 在单轮和多轮设置下的表现。我们的实验结果证实,我们测试的所有顶级开源和闭源权重的 LLM 在多轮对话中的表现显著低于单轮对话,平均在六种生成任务中性能下降了 39%。对超过 20 万次模拟对话的分析将性能退化分解为两个部分:能力上的轻微损失和可靠性上的显著降低。我们发现,LLMs 往往在对话的早期阶段做出假设,并过早尝试生成最终解决方案,而对其过度依赖。更简单地说,我们发现 *当 LLMs 在对话中走错了方向,它们会迷失且无法自行恢复*。
  • 图表
  • 解决问题
    论文试图解决大型语言模型(LLM)在多轮对话中的性能问题,特别是当用户指令未完全指定时,LLM如何有效帮助用户定义、探索和优化任务需求。这是一个新问题,因为传统评估主要集中在单轮、完全指定的指令场景中。
  • 关键思路
    论文的关键思路是通过大规模模拟实验,比较LLM在单轮和多轮对话设置下的表现,并分析其性能下降的原因。研究发现,性能下降主要由两部分组成:轻微的能力损失和显著的可靠性降低。此外,LLM倾向于过早假设并生成最终解决方案,导致一旦出现错误就难以纠正。这种分析为改进LLM在多轮对话中的表现提供了方向。
  • 其它亮点
    论文设计了包含20万多次模拟对话的大规模实验,覆盖六种生成任务,验证了多轮对话中LLM性能下降的现象。研究指出LLM在多轮对话中容易‘迷失’的问题,并强调了模型可靠性和对话策略的重要性。虽然论文未提及代码开源,但其方法论可以启发后续研究,例如开发更稳健的对话管理机制或增强模型的自我修正能力。
  • 相关研究
    相关研究包括:1)《Evaluating Large Language Models in Multi-turn Conversations》探讨了多轮对话中的模型表现;2)《Dialogue Modeling with Large Pre-trained Language Models》研究了预训练模型在对话建模中的应用;3)《Error Propagation in Multi-turn Dialogue Systems》分析了多轮对话系统中的错误传播现象;4)《Improving Conversational Understanding through Clarification Questions》提出通过澄清问题提升对话理解能力。这些研究共同推动了LLM在复杂对话场景中的应用和发展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论