MS MARCO Web Search: a Large-scale Information-rich Web Dataset with Millions of Real Click Labels

2024年05月13日
  • 简介
    最近大型模型的突破凸显了数据规模、标签和模态的重要意义。本文介绍了MS MARCO Web Search,这是第一个大规模信息丰富的网络数据集,包含数百万真实点击的查询-文档标签。该数据集紧密模拟了真实世界的网络文档和查询分布,为各种下游任务提供了丰富的信息,并鼓励在各个领域进行研究,例如通用的端到端神经索引器模型、通用的嵌入模型以及具有大型语言模型的下一代信息访问系统。MS MARCO Web Search提供了一个检索基准,具有三个网络检索挑战任务,需要在机器学习和信息检索系统研究领域进行创新。作为满足大规模、真实和丰富数据要求的第一个数据集,MS MARCO Web Search为未来人工智能和系统研究的进展铺平了道路。MS MARCO Web Search数据集可在以下网址获得:https://github.com/microsoft/MS-MARCO-Web-Search。
  • 图表
  • 解决问题
    MS MARCO Web Search介绍了一个大规模信息丰富的网络数据集,旨在解决信息检索中数据规模、标签和模型的问题。
  • 关键思路
    该数据集提供了大量真实的查询-文档标签,模拟了真实的网络文档和查询分布,并为各种下游任务提供了丰富的信息。该数据集为机器学习和信息检索系统研究领域的创新提供了契机。
  • 其它亮点
    MS MARCO Web Search提供了三个网络检索挑战任务的检索基准,需要创新的机器学习和信息检索系统研究。该数据集开源,可供研究人员使用。
  • 相关研究
    最近的相关研究包括BERT和GPT等大型语言模型的研究,以及其他大规模数据集的构建,例如SQuAD和GLUE等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论