Planning Like Human: A Dual-process Framework for Dialogue Planning

简介

在主动对话中，挑战不仅在于生成回复，还在于引导对话朝着预定目标前进，这是大型语言模型（LLMs）通常由于其反应性质而难以完成的任务。传统的增强LLMs对话规划的方法，从精心设计的提示到策略网络的整合，要么面临效率问题，要么提供次优的性能。受心理学中识别两种不同思维方式-直觉（快速）和分析（缓慢）的双过程理论的启发，我们提出了双过程对话规划（DPDP）框架。DPDP通过两个互补的规划系统体现了这个理论：一个是针对熟悉情境的本能策略模型，另一个是针对复杂的、新颖的情境的深思熟虑的蒙特卡罗树搜索（MCTS）机制。这种双重策略进一步与一种新颖的两阶段训练方案相结合：离线强化学习用于形成强大的初始策略模型，随后是MCTS增强的即时学习，确保效率和战略深度之间的动态平衡。我们在各种对话任务中的实证评估证实了DPDP在实现高质量对话和运营效率方面的优越性，超越了现有方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解决问题的框架
关键思路

提出了一种基于双重过程理论的对话规划框架，结合本能策略模型和深度搜索机制，通过离线强化学习和在线学习相结合的方式进行训练，以实现高质量对话和操作效率的平衡。
其它亮点

该论文的亮点是提出了一种新的对话规划框架，该框架通过两个不同的过程（本能和分析）来实现对话的目标。此外，该论文还通过实验评估证明了该框架的有效性和优越性。
相关研究

最近的相关研究包括“基于深度学习的对话系统”、“对话生成模型”和“对话管理算法”等。

Planning Like Human: A Dual-process Framework for Dialogue Planning

提问交流

提问交流