Leveraging Implicit Feedback from Deployment Data in Dialogue
解决问题:本篇论文旨在研究如何通过学习自然对话中的隐式反馈来提高社交对话代理的表现,而无需额外的注释。同时,论文也探究了一些代理信号可能导致不良生成的问题。这是一个相对较新的问题。
关键思路:本文的关键思路是利用来自已部署模型的自然对话数据,通过收集的对话片段中的用户响应长度、情感和未来人类话语的反应等信号,隐式地衡量机器生成话语的质量。相较于当前领域的研究状况,这篇论文的思路在于利用隐式反馈来提高社交对话代理的表现,而无需额外的注释。
其他亮点:本文的实验使用了公开发布的BlenderBot(Xu等人,2023)部署数据,人类评估表明,与基线响应相比,我们的新模型有所改进。然而,研究人员发现一些代理信号可能会导致更多不良生成,例如,优化对话长度可能会导致比基线更具争议或不友好的生成,而优化积极情感或反应则可以减少这些行为。论文没有提供开源代码,但实验设计合理,值得深入研究。
关于作者:本文的主要作者包括Richard Yuanzhe Pang、Stephen Roller、Kyunghyun Cho、He He和Jason Weston。他们分别来自纽约大学、Facebook AI Research和New York Times等机构。他们之前的代表作包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Learning to Ask: Neural Question Generation for Reading Comprehension》等。
相关研究:近期其他相关的研究包括《Learning to Learn from Dialogue》(作者:Jiwei Li、Alexander H. Miller、Sumit Chopra、Marc'Aurelio Ranzato,机构:Facebook AI Research)、《Dialogue Learning with Human Teaching and Feedback in End-to-End Trainable Task-Oriented Dialogue Systems》(作者:Xiaofei Sun、Jinchao Zhang、Xiaodong Liu、Yanqiu Shao,机构:Microsoft Research Asia)等。

论文摘要:我们的研究旨在通过从用户和已部署模型之间的自然对话中学习,而无需额外的注释,来改进社交对话代理。为了隐含地衡量机器生成话语的质量,我们利用了一些信号,如用户响应长度、情感以及在收集的对话片段中未来人类话语的反应。我们的实验使用了 BlenderBot(Xu 等人,2023)的公开部署数据。人类评估表明,我们的新模型比基准响应有所改进;然而,我们发现一些代理信号也可能导致更多具有不良特性的生成。例如,优化对话长度可能会导致比基准更有争议或不友好的生成,而优化积极情感或反应则可以减少这些行为。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢