Planning Like Human: A Dual-process Framework for Dialogue Planning

2024年06月08日
  • 简介
    在主动对话中,挑战不仅在于生成回复,还在于引导对话朝着预定目标前进,这是大型语言模型(LLMs)通常由于其反应性质而难以完成的任务。传统的增强LLMs对话规划的方法,从精心设计的提示到策略网络的整合,要么面临效率问题,要么提供次优的性能。受心理学中识别两种不同思维方式-直觉(快速)和分析(缓慢)的双过程理论的启发,我们提出了双过程对话规划(DPDP)框架。DPDP通过两个互补的规划系统体现了这个理论:一个是针对熟悉情境的本能策略模型,另一个是针对复杂的、新颖的情境的深思熟虑的蒙特卡罗树搜索(MCTS)机制。这种双重策略进一步与一种新颖的两阶段训练方案相结合:离线强化学习用于形成强大的初始策略模型,随后是MCTS增强的即时学习,确保效率和战略深度之间的动态平衡。我们在各种对话任务中的实证评估证实了DPDP在实现高质量对话和运营效率方面的优越性,超越了现有方法。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题的框架
  • 关键思路
    提出了一种基于双重过程理论的对话规划框架,结合本能策略模型和深度搜索机制,通过离线强化学习和在线学习相结合的方式进行训练,以实现高质量对话和操作效率的平衡。
  • 其它亮点
    该论文的亮点是提出了一种新的对话规划框架,该框架通过两个不同的过程(本能和分析)来实现对话的目标。此外,该论文还通过实验评估证明了该框架的有效性和优越性。
  • 相关研究
    最近的相关研究包括“基于深度学习的对话系统”、“对话生成模型”和“对话管理算法”等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问