- 简介由大型语言模型(LLMs)驱动的社会代理能够模拟人类社会行为,但在处理复杂的目标导向型社交对话时表现不足。直接偏好优化(DPO)已被证明在使LLM行为与人类偏好对齐方面,在各种代理任务中是有效的。现有的针对多轮互动的DPO方法分为回合级和会话级两种。回合级方法过于细致,仅专注于单个回合,而会话级方法则过于粗略,常常引入训练噪声。为了解决这些局限性,我们提出了段落级直接偏好优化(SDPO),该方法专注于互动中的特定关键段落,以优化多轮代理行为并减少训练噪声。在SOTOPIA基准上的评估表明,经过SDPO调优的代理在性能上始终优于现有的DPO方法和专有的大型语言模型如GPT-4,突显了SDPO在提升基于LLM的代理社交智能方面的潜力。我们已在以下地址开源了代码和数据:https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO。
- 图表
- 解决问题该论文试图解决大型语言模型(LLM)在处理复杂目标导向的社会对话时的不足,特别是在多轮互动中,现有的直接偏好优化(DPO)方法要么过于细化关注单个回合,要么过于粗略导致训练噪声。这是一个新问题,因为随着LLM在模拟人类社交行为方面的能力增强,如何进一步提升其在多轮对话中的表现变得尤为重要。
- 关键思路论文提出了一种新的方法——段落级别直接偏好优化(SDPO),它专注于对话中的关键段落进行优化,以减少训练噪声并提高多轮对话的表现。相比现有方法,SDPO通过聚焦于对话的关键部分而非每个单独的回合或整个会话,实现了更精细且有效的优化。
- 其它亮点论文的主要亮点包括:1) SDPO方法在SOTOPIA基准测试中显著优于现有的DPO方法和其他专有LLM(如GPT-4o)。2) 提出了一个新颖的框架,可以在保持高质量对话的同时减少训练中的噪声。3) 研究团队开源了代码和数据,便于其他研究人员复现和改进。未来可以继续研究如何将SDPO应用于更多实际场景,并探索其在不同领域中的应用潜力。
- 近期在这个领域的相关研究还包括:1) 使用强化学习改进对话系统的性能;2) 开发更高效的数据标注方法以提高对话质量;3) 探索跨模态对话系统的设计。一些相关的论文标题包括《利用强化学习优化对话策略》、《基于深度学习的对话生成与评估》、《多模态对话系统的研究进展》。
沙发等你来抢
去评论
评论
沙发等你来抢