- 简介本文综述了针对任务型对话系统的评估方法,特别关注对话系统在实际应用中的表现,例如客户服务。本文(1)概述了以前工作中使用的构造和指标,(2)讨论了对话系统评估中的挑战,(3)为对话系统评估的未来制定了研究议程。我们对四个数据库(ACL、ACM、IEEE和Web of Science)进行了系统综述,筛选后得到了122项研究。这些研究仔细分析了它们提出的构造和方法,发现构造和方法的种类非常广泛,特别是操作化并不总是报告清楚。我们希望未来的工作会更加批判性地对待操作化和使用的构造的规范化。为了实现这个目标,本文最后提出了评估建议和未解决问题的建议。
- 图表
- 解决问题对话系统评估的构建和度量方法缺乏规范性和一致性,本文旨在提供一个系统的评估方法框架并指出未来的研究方向。
- 关键思路本文提出了一个系统的评估方法框架,包括评估指标、评估方法和评估数据集的选择。同时,提出了未来研究的方向,如如何更好地评估多轮对话系统、如何评估不同语言的对话系统等。
- 其它亮点本文对四个数据库中的122篇研究进行了系统评估,并对评估指标和方法进行了分析。发现评估指标和方法存在多样性,操作化不够清晰。同时,本文提出了评估指标和方法的建议,并对未来研究方向进行了探讨。
- 最近的相关研究包括《A Survey of Evaluation Methods for Personalized Dialogue Systems》、《Towards Evaluating the Robustness of Neural Dialog Systems》等。
沙发等你来抢
去评论
评论
沙发等你来抢