PIPPA: A Partially Synthetic Conversational Dataset
解决问题:这篇论文旨在解决现有对话和角色扮演数据集无法捕捉真实世界角色扮演参与者通常呈现的多样化和微妙交互的限制,为研究人员和AI开发人员提供一个丰富的资源,以在角色扮演场景中探索和完善对话AI系统。
关键思路:本文提出了一个部分合成的数据集PIPPA,由社区驱动的众包努力的结果,包括26,000个对话会话,超过1百万个话语。这个数据集提供了一个更加真实的角色扮演场景,以帮助研究人员和AI开发人员更好地研究和开发对话AI系统。
其他亮点:本文的亮点在于提供了一个更加真实的角色扮演场景,为研究人员和AI开发人员提供了一个丰富的资源。本文的实验设计包括了一个社区驱动的众包努力,使用了一个部分合成的数据集PIPPA。目前,这个数据集已经开源。
关于作者:Tear Gosling、Alpin Dale和Yinhe Zheng是本文的主要作者。他们所在的机构分别是University of Auckland和University of Waikato。Tear Gosling是一位在人工智能领域有着丰富经验的研究人员,他的代表作包括《A Comprehensive Survey on Transfer Learning》。Alpin Dale是一位在自然语言处理领域有着丰富经验的研究人员,他的代表作包括《A Survey of Text Similarity Approaches》。Yinhe Zheng是一位在机器学习领域有着丰富经验的研究人员,他的代表作包括《Multi-Task Learning for Text Classification Using Imitation Learning》。
相关研究:近期其他相关的研究包括《A Survey on Dialogue Systems: Recent Advances and New Frontiers》(作者:Jiawei Wu、Chen Xing、Xiaodong Liu,机构:Microsoft Research Asia)、《DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation》(作者:Yiping Song、Yunbo Cao、Yansong Feng、Dongyan Zhao,机构:Peking University)等。
论文摘要:随着越来越强大的大型语言模型的出现,人们越来越有兴趣将这些模型用于日常对话和角色扮演应用。然而,现有的对话和角色扮演数据集往往无法捕捉到真实世界角色扮演参与者通常展示的多样化和微妙的交互。为了解决这个限制并为这个快速增长的领域做出贡献,我们介绍了一个部分合成的数据集,名为PIPPA(人与人工智能之间的个人互动对)。PIPPA是一个社区驱动的众包努力的结果,涉及一群角色扮演爱好者。该数据集包括分布在26,000个对话会话中的超过1百万个话语,为研究人员和AI开发人员提供了一个丰富的资源,以在角色扮演场景的上下文中探索和改进对话AI系统。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢