The Era of Real-World Human Interaction: RL from User Conversations

向作者提问

NEW

简介

我们认为，为了实现模型的持续改进和多维度对齐，未来的模型必须能够从自然的人类交互中进行学习。当前的对话模型主要依赖预先标注、由专家提供的反馈数据进行对齐。在本研究中，我们提出了“从人类交互中进行强化学习”（Reinforcement Learning from Human Interaction, RLHI），这一范式直接从真实场景中的用户对话中学习。我们提出了两种相辅相成的方法：（1）基于用户引导重写（User-Guided Rewrites）的RLHI，该方法根据用户的自然语言后续回应来修改不令人满意的模型输出；（2）基于用户奖励（User-Based Rewards）的RLHI，该方法通过一个以用户长期交互历史（称为“人设”或persona）为条件的奖励模型进行学习。这两种方法共同通过以人设为条件的偏好优化，将用户的长期人设与单轮对话层面的偏好关联起来。在WildChat衍生的对话数据上训练后，两种RLHI变体在个性化能力和指令遵循方面均优于强基线模型，且类似的反馈还能提升模型在推理基准测试中的表现。这些结果表明，自然的人类交互可为个性化对齐提供一种可扩展且高效的监督信号。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

当前的对话模型主要依赖预先标注的、由专家生成的人类反馈进行对齐，这种方式成本高、难以扩展，且缺乏真实用户交互中的动态个性化信息。论文试图解决如何从自然的人类互动中直接学习，以实现持续模型改进和多维度对齐（如个性化、指令遵循、推理能力）的问题。这是一个新兴且重要的问题，尤其在推动模型走向真实场景应用方面。
关键思路

提出Reinforcement Learning from Human Interaction (RLHI) 范式，使模型直接从真实用户对话中学习。其核心包括两种方法：(1) 基于用户引导重写（User-Guided Rewrites），利用用户的自然语言后续回复来修正模型输出；(2) 基于用户奖励（User-Based Rewards），构建一个结合用户长期交互历史（即‘人设’或persona）的奖励模型，实现个性化的偏好优化。该思路将长期用户特征与单轮交互偏好连接，实现了更细粒度、可持续的在线对齐学习。相比传统依赖静态标注数据的RLHF，RLHI更具可扩展性和现实适用性。
其它亮点

实验基于WildChat数据集，包含大量真实用户与AI的自由对话。两种RLHI变体在个性化响应、指令遵循能力上均优于强基线模型，并在推理基准（如MMLU、GSM8K）上表现出性能提升，说明自然交互信号也能增强通用能力。研究设计了用户历史建模机制并验证了persona-conditioned reward的有效性。目前WildChat数据集已公开，但论文未明确提及代码是否开源。未来可深入探索在线持续学习框架、减少用户偏差影响、跨平台persona迁移等方向。
相关研究

1. 'InstructGPT: Training Language Models to Follow Instructions with Human Feedback' (Ouyang et al., 2022) 2. 'Large Language Models as Optimizers' (Wang et al., 2023) 3. 'Self-Alignment with Instruction Backtranslation' (Liu et al., 2023) 4. 'CRIS: Critique and Revision in Instruction Following' (Yue et al., 2024) 5. 'Preference Learning with Unpaired Comparisons from Human Feedback' (Rafailov et al., 2024) 6. 'Towards Open-Ended Dialogue Systems with Grounded Reasoning' (Zhao et al., 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问