- 简介大型语言模型(LLMs)通过人类反馈的强化学习(RLHF)对齐,已经迅速成为构建智能对话助手代理的主要范例之一。然而,尽管它们在许多基准测试中表现强劲,基于LLM的代理仍然缺乏对话技能,例如消歧:当面对歧义时,通用助手往往会过度保守或隐含猜测用户的真实意图,而不是询问澄清问题,在特定任务设置下,高质量的对话样本通常受到限制,影响模型学习最佳对话行动策略的能力。我们提出了基于动作对比自我训练(ACT)的算法,这是一种基于直接偏好优化(DPO)的准在线优化算法,允许在多轮对话中进行高效的对话策略学习。我们在三个困难的对话任务中展示了ACT在高效样本条件下的有效性:基于表格的问答、机器阅读理解和AmbigSQL,这是一项用于消歧文本到SQL生成的新任务。此外,我们建议通过检查LLMs作为对话代理的功能来评估它们是否能隐含地识别和推理对话中的歧义。ACT相对于监督微调和DPO的标准方法表现出了显着的对话建模改进。
- 图表
- 解决问题论文提出了Action-Based Contrastive Self-Training (ACT)算法,旨在解决LLM-based agents在多轮对话中存在的歧义理解问题,提高对话建模的效果。
- 关键思路ACT算法是基于Direct Preference Optimization (DPO)的一种准在线偏好优化算法,能够在多轮对话中实现高效的对话策略学习。
- 其它亮点论文在三个困难的对话任务上展示了ACT算法的有效性:基于表格的问答、机器阅读理解和AmbigSQL。此外,论文还提出了评估LLMs作为对话代理的能力的方法,并展示了ACT相比于标准的监督微调和DPO方法的改进效果。
- 最近的相关研究包括基于强化学习的对话建模方法,如DPO和PPO,以及基于预训练的对话建模方法,如GPT和BERT。
沙发等你来抢
去评论
评论
沙发等你来抢