A Survey on Recent Advances in Conversational Data Generation

2024年05月12日
  • 简介
    最近,对话系统的发展显著提升了各种领域中人机交互的效果。然而,由于缺乏专业的对话数据,训练这些系统仍然具有挑战性。传统上,对话数据集是通过众包创建的,但这种方法被证明成本高、规模有限且劳动密集。为了解决这个问题,开发出了合成对话数据的方法,利用技术来增强现有数据集或将文本资源转换为对话格式,提供了一种更高效和可扩展的数据集创建方法。在本调查中,我们系统全面地回顾了多轮对话数据生成,重点关注三种对话系统:开放域、任务导向和信息寻求。我们根据种子数据创建、话语生成和质量过滤方法等关键组成部分对现有研究进行分类,并介绍了一个概括对话数据生成系统主要原则的通用框架。此外,我们还研究了评估合成对话数据的评估指标和方法,解决了该领域当前的挑战,并探讨了未来研究的潜在方向。我们的目标是通过呈现最先进的方法的概述和突出未来研究的机会,加速研究人员和从业者的进展。
  • 图表
  • 解决问题
    论文试图解决如何更高效地创建对话数据集的问题,以及如何评估合成对话数据的质量。
  • 关键思路
    论文介绍了一种基于生成模型的对话数据集生成框架,可以利用现有的对话数据集或文本资源,生成高质量的合成对话数据集。
  • 其它亮点
    论文提出了一个系统且全面的对话数据生成方法,包括种子数据创建、话语生成和质量过滤等关键组成部分。同时,还介绍了用于评估合成对话数据的度量和方法,并探讨了该领域的挑战和未来研究方向。
  • 相关研究
    近期的相关研究包括《Creating Large-scale Synthetic Chinese Dialogue Corpora》、《A Survey of Available Corpora for Building Data-driven Dialogue Systems》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论