用递归摘要使大型语言模型具备长程对话记忆能力

Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models

Q Wang, L Ding, Y Cao, Z Tian, S Wang, D Tao, L Guo
[Chinese Academy of Sciences]

大多数开放域对话系统在长对话中容易忘记重要信息，现有方法需要训练特定的检索器或摘要生成器，这需要大量时间和高质量的标注数据。
提出用大型语言模型(LLM)如ChatGPT递归生成总结作为记忆，以增强长期记忆能力。
该方法首先提示LLM总结短对话，然后递归地将前面的记忆和新对话结合生成新的记忆，最后，LLM使用最新记忆生成回复。
在Multi-Session Chat数据集上的实验表明，该方法在长对话中能生成更一致的回复，不需要额外的工具或数据。
分析表明，使用一个标注示例能进一步改进性能，表明内部学习的潜力。
限制包括只用自动评估和LLM的高计算成本。

动机：现有的开放领域对话系统在长期对话中往往会忘记重要的信息，而现有的方法通常需要训练特定的检索器或摘要生成器来获取过去的关键信息，这既耗时又高度依赖标注数据的质量。因此，本文的动机是提出一种能利用大型语言模型(LLM)递归生成摘要/记忆的方法，以增强长期记忆能力。
方法：首先用LLM刺激其记忆短对话上下文，然后递归生成新的记忆，通过结合先前的记忆和后续的对话上下文。最后，LLM可以轻松地借助最新的记忆生成高度一致的回复。
优势：论文的主要优势是在长对话中能生成更一致的回复，而且方法不需要标注数据或额外的工具。

提出一种利用递归生成摘要来增强长期记忆能力的方法，以解决开放域对话系统在长对话中遗忘重要信息的问题。

https://arxiv.org/abs/2308.15022

内容中包含的图片若涉及版权问题，请及时与我们联系删除

用递归摘要使大型语言模型具备长程对话记忆能力

评论