- 简介社交智能已成为大型语言模型(LLMs)的一项关键能力,使它们能够有效参与现实世界中的社交任务,例如协调、说服、协作和谈判。强化学习(RL)自然适用于训练具备社交智能的智能体,因为它允许模型通过直接的社交互动来学习复杂的策略。然而,社交互动具有两个关键特征,为强化学习的训练带来了障碍:(1)部分可观测性,即话语的效果是间接且延迟的,这使信用分配变得复杂;(2)多维性,即诸如建立融洽关系或寻求知识等行为间接地促成目标的实现。这些特征使得基于马尔可夫决策过程(MDP)、依赖单一维度的回合级奖励的强化学习方法变得低效且不稳定。为了解决这些挑战,我们提出了Sotopia-RL,一个新颖的框架,将粗粒度的回合级反馈细化为话语级、多维度的奖励。话语级的信用分配通过将结果归因于单个话语来缓解部分可观测性问题,而多维度奖励则捕捉了社交互动的丰富性,并减少了奖励机制被滥用的可能性。在Sotopia(一个开放式的社交学习环境)中进行的实验表明,Sotopia-RL实现了最先进的社交目标完成得分(在Sotopia-hard上为7.17,在Sotopia-full上为8.31),显著优于现有方法。消融实验验证了话语级信用分配和多维度奖励设计在强化学习训练中的必要性。我们的代码已公开,地址为:https://github.com/sotopia-lab/sotopia-rl。
- 图表
- 解决问题论文试图解决在训练具有社会智能的大型语言模型(LLMs)时,由于社交互动的“部分可观测性”和“多维性”所导致的强化学习(RL)训练效率低和不稳定的问题。这是一个相对较新的问题,因为随着LLMs在社交任务中的应用日益广泛,如何有效训练这类模型成为研究热点。
- 关键思路论文提出Sotopia-RL框架,通过将粗粒度的回合级反馈细化为细粒度的语句级、多维奖励,解决部分可观测性和多维性带来的挑战。这一思路的新意在于引入了更精细的信用分配机制,并通过多维奖励更全面地建模社交互动的复杂性。
- 其它亮点1. 提出语句级信用分配机制,缓解部分可观测性问题,使模型能更准确地将结果归因于具体语句。 2. 采用多维奖励设计,捕捉社交互动的丰富性,减少奖励欺骗问题。 3. 在Sotopia环境中进行实验,取得了Sotopia-hard(7.17)和Sotopia-full(8.31)的最先进社交目标完成分数。 4. 进行消融实验,验证了语句级信用分配和多维奖励设计的必要性。 5. 代码已开源,便于后续研究和复现实验结果。
- 1. Deep Reinforcement Learning for Dialogue Generation 2. Multi-Agent Reinforcement Learning in Collaborative Environments 3. Reward Shaping in Reinforcement Learning for NLP Tasks 4. Dialogue Policy Learning with Multi-Dimensional Rewards 5. Partially Observable Markov Decision Processes in Language Modeling
沙发等你来抢
去评论
评论
沙发等你来抢