- 简介Chatbots,如GPT-4和ChatGPT,现在为数百万用户提供服务。尽管它们被广泛使用,但仍缺乏公共数据集展示这些工具在实践中由用户使用的情况。为了弥补这一差距,我们提供了免费访问ChatGPT的在线用户,以交换他们的肯定、同意和匿名收集他们的聊天记录和请求头。从中,我们编制了WildChat,这是一个包含100万个用户-ChatGPT对话的语料库,其中包含超过250万个交互回合。我们将WildChat与其他流行的用户-聊天机器人交互数据集进行比较,并发现我们的数据集提供了最多样化的用户提示,包含最多种语言,并呈现了研究人员研究的最丰富的潜在有毒使用情况。除了有时间戳的聊天记录外,我们还通过请求头将数据集丰富了人口统计数据,包括州、国家和哈希IP地址。这种增强允许更详细地分析不同地理区域和时间维度的用户行为。最后,因为它捕捉了广泛的用例,我们展示了数据集在微调指令遵循模型方面的潜在效用。WildChat在AI2 ImpACT许可下发布在https://wildchat.allen.ai上。
- 图表
- 解决问题WildChat论文试图解决的问题是缺乏公共数据集来展示用户如何使用聊天机器人工具,以及如何在实践中使用这些工具。作者试图通过收集用户的聊天记录和请求头来构建一个包含100万个用户-ChatGPT对话的语料库,以填补这一空白。
- 关键思路论文的关键思路是通过WildChat数据集来提供一个包含最多语言、最多潜在有害用例和最多用户提示的用户-聊天机器人交互数据集,并且通过加入地理和时间维度的人口统计信息来增强数据集的分析能力,同时展示数据集在微调指令遵循模型方面的潜在用途。
- 其它亮点WildChat数据集是一个包含100万个用户-ChatGPT对话、超过250万个交互轮次的语料库。数据集包含各种语言和多种潜在有害用例,同时提供了地理和时间维度的人口统计信息。论文还展示了数据集在微调指令遵循模型方面的潜在用途。
- 在最近的相关研究中,还有一些关于聊天机器人和人工智能对话数据集的研究。例如,Cornell Movie Dialogs Corpus是一个包含电影角色对话的数据集,而Persona-Chat是一个包含人物角色对话的数据集。
沙发等你来抢
去评论
评论
沙发等你来抢