Benchmark Underestimates the Readiness of Multi-lingual Dialogue Agents

2024年05月28日
  • 简介
    创建多语言任务导向对话(TOD)代理程序是具有挑战性的,因为获取训练数据的成本很高。遵循提高训练数据效率的研究趋势,我们首次展示,在上下文学习方面是足够应对多语言TOD的。 为了处理具有挑战性的对话状态跟踪(DST)子任务,我们将其分解为更简单的步骤,这些步骤更适用于上下文学习,只使用少量的少量样例。我们在多语言TOD数据集X-RiSAWOZ上测试了我们的方法,该数据集包括中文、英语、法语、韩语、印地语和混合印地语-英语的12个领域。我们在6种语言上的逐轮DST准确率在55.6%到80.3%之间,似乎比微调模型的SOTA结果差,后者在不同语言上的准确率为60.7%到82.8%;我们在响应生成(RG)子任务中的BLEU得分也显着低于SOTA。 然而,在手动评估验证集之后,我们发现通过纠正金标签错误和改进数据集注释模式,使用我们的提示,GPT-4可以实现(1)89.6%-96.8%的DST准确性,以及(2)在不同语言之间超过99%的正确响应生成。这使我们得出结论,当前的自动指标严重低估了上下文学习的有效性。
  • 图表
  • 解决问题
    论文试图通过上下文学习解决多语言任务导向对话代理的训练数据获取成本高的问题。作者将对话状态跟踪(DST)子任务分解为更简单的步骤,更适合于上下文学习。作者在多语言任务导向对话数据集X-RiSAWOZ上测试了他们的方法。
  • 关键思路
    作者通过改进标注架构和手动纠正标签错误,证明了他们的方法可以在多语言情境下实现高精度的DST和响应生成(RG)。
  • 其它亮点
    论文提出了一种在多语言任务导向对话中使用上下文学习的方法,可以用少量的few-shot样本来解决DST子任务。作者在X-RiSAWOZ数据集上测试了他们的方法,并通过手动评估证明了该方法的高效性。值得关注的是,作者的方法可以在多语言情境下实现高精度的DST和RG。
  • 相关研究
    最近的相关研究包括使用预训练语言模型的多语言任务导向对话代理,如mT5和XLM-R。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论