- 简介我们认为,为了实现模型的持续改进和多维度对齐,未来的模型必须能够从自然的人类交互中进行学习。当前的对话模型主要依赖预先标注、由专家提供的反馈数据进行对齐。在本研究中,我们提出了“从人类交互中进行强化学习”(Reinforcement Learning from Human Interaction, RLHI),这一范式直接从真实场景中的用户对话中学习。我们提出了两种相辅相成的方法:(1)基于用户引导重写(User-Guided Rewrites)的RLHI,该方法根据用户的自然语言后续回应来修改不令人满意的模型输出;(2)基于用户奖励(User-Based Rewards)的RLHI,该方法通过一个以用户长期交互历史(称为“人设”或persona)为条件的奖励模型进行学习。这两种方法共同通过以人设为条件的偏好优化,将用户的长期人设与单轮对话层面的偏好关联起来。在WildChat衍生的对话数据上训练后,两种RLHI变体在个性化能力和指令遵循方面均优于强基线模型,且类似的反馈还能提升模型在推理基准测试中的表现。这些结果表明,自然的人类交互可为个性化对齐提供一种可扩展且高效的监督信号。
-
- 图表
- 解决问题当前的对话模型主要依赖预先标注的、由专家生成的人类反馈进行对齐,这种方式成本高、难以扩展,且缺乏真实用户交互中的动态个性化信息。论文试图解决如何从自然的人类互动中直接学习,以实现持续模型改进和多维度对齐(如个性化、指令遵循、推理能力)的问题。这是一个新兴且重要的问题,尤其在推动模型走向真实场景应用方面。
- 关键思路提出Reinforcement Learning from Human Interaction (RLHI) 范式,使模型直接从真实用户对话中学习。其核心包括两种方法:(1) 基于用户引导重写(User-Guided Rewrites),利用用户的自然语言后续回复来修正模型输出;(2) 基于用户奖励(User-Based Rewards),构建一个结合用户长期交互历史(即‘人设’或persona)的奖励模型,实现个性化的偏好优化。该思路将长期用户特征与单轮交互偏好连接,实现了更细粒度、可持续的在线对齐学习。相比传统依赖静态标注数据的RLHF,RLHI更具可扩展性和现实适用性。
- 其它亮点实验基于WildChat数据集,包含大量真实用户与AI的自由对话。两种RLHI变体在个性化响应、指令遵循能力上均优于强基线模型,并在推理基准(如MMLU、GSM8K)上表现出性能提升,说明自然交互信号也能增强通用能力。研究设计了用户历史建模机制并验证了persona-conditioned reward的有效性。目前WildChat数据集已公开,但论文未明确提及代码是否开源。未来可深入探索在线持续学习框架、减少用户偏差影响、跨平台persona迁移等方向。
- 1. 'InstructGPT: Training Language Models to Follow Instructions with Human Feedback' (Ouyang et al., 2022) 2. 'Large Language Models as Optimizers' (Wang et al., 2023) 3. 'Self-Alignment with Instruction Backtranslation' (Liu et al., 2023) 4. 'CRIS: Critique and Revision in Instruction Following' (Yue et al., 2024) 5. 'Preference Learning with Unpaired Comparisons from Human Feedback' (Rafailov et al., 2024) 6. 'Towards Open-Ended Dialogue Systems with Grounded Reasoning' (Zhao et al., 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流