预训练的大型语言模型的出现,导致了一系列社交聊天机器人的部署,用于聊天。虽然这些聊天机器人表现出了语言能力和流畅性,但它们不能保证有吸引力,而且可能难以留住用户。这项工作研究了优先考虑用户参与的社交聊天机器人的发展,以提高保留率,特别是研究了使用人类反馈来有效地发展高度参与的聊天机器人。
Rewarding Chatbots for Real-World Engagement with Millions of Users
Robert Irvine, Douglas Boubert, Vyas Raina, Adian Liusie, Vineet Mudupalli, Aliaksei Korshuk, Zongyi Liu, Fritz Cremer, Valentin Assassi, Christie-Carol Beauchamp, Xiaoding Lu, Thomas Rialan, William Beauchamp
[Seamless Capital & University of Cambridge]
- 所提出的方法使用从用户互动中收集的自动伪标签来训练一个奖励模型,该模型可用于拒绝聊天机器人模型在推理时产生的低分样本响应;
- 直观的评价指标,如平均对话长度(MCL),被引入作为衡量已部署的聊天机器人的参与程度的代理;
- 在Chai Research平台上对10,000名新的日常聊天机器人用户进行的A/B测试表明,这种方法使MCL增加了70%,这意味着GPT-J 6B模型的用户保留率增加了30%以上;
- 未来的工作旨在使用奖励模型来实现数据飞轮,最新的用户对话可以被用来交替微调语言模型和奖励模型。
https://arxiv.org/pdf/2303.06135.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢