本文提出了一种名为Action-Based Contrastive Self-Training (ACT) 的高效数据驱动对比强化学习微调方法,旨在提升混合主动交互中多轮对话建模的能力。尽管通过人类反馈优化的大型语言模型(LLMs)在许多基准测试中表现出色,但它们在多轮对话技能方面仍存在不足,例如在面对模糊情境时,往往倾向于过度猜测用户意图,而非主动询问以澄清问题。高质量的对话数据通常有限,成为限制LLMs学习最优对话策略的瓶颈。ACT方法通过准在线偏好学习的方式,利用对比自训练机制,在有限数据条件下优化对话代理的行为策略,特别是在多轮对话中增强其澄清能力。这种方法为开发更智能、更具交互性的对话系统提供了新思路。
本专栏通过快照技术转载,仅保留核心内容
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢