Dynamic Reward Adjustment in Multi-Reward Reinforcement Learning for Counselor Reflection Generation

2024年03月20日
  • 简介
    本文研究了多重奖励强化学习的问题,以联合优化自然语言生成的多个文本质量为目标。我们专注于辅导员反思生成的任务,通过优化生成器,同时提高生成的辅导员回复的流畅性、连贯性和反思质量。我们引入了两种新的赌博方法,DynaOpt和C-DynaOpt,它们依赖于将奖励组合成单个值并同时优化的广泛策略。具体而言,我们使用非上下文和上下文多臂赌博来在训练期间动态调整多个奖励权重。通过自动和手动评估,我们展示了我们提出的技术DynaOpt和C-DynaOpt优于现有的天真和基于赌博的基线,展示了它们增强语言模型的潜力。
  • 图表
  • 解决问题
    本文研究多重奖励强化学习问题,旨在同时优化生成自然语言的多个文本质量指标,针对辅导员反思生成任务,优化生成器以同时提高生成响应的流畅性、连贯性和反思质量。
  • 关键思路
    本文提出了两种新颖的策略,DynaOpt和C-DynaOpt,采用非上下文和上下文多臂赌博机来动态调整多个奖励权重,并将其同时优化,以提高语言模型的性能。
  • 其它亮点
    本文通过自动和手动评估,展示了DynaOpt和C-DynaOpt的有效性,相较于现有的Naive和基线方法,能够提高语言模型的生成质量。实验中使用了辅导员反思数据集,并开源了代码。
  • 相关研究
    在该领域的相关研究包括:Multi-Objective Reinforcement Learning for Natural Language Generation,A Reinforcement Learning Approach to Text Summarization with Saliency-Based Rewards等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论