Quati: A Brazilian Portuguese Information Retrieval Dataset from Native Speakers

简介

尽管葡萄牙语是世界上使用最广泛的语言之一，但是该语言缺乏高质量的信息检索数据集。我们提出了Quati，这是一个专门针对巴西葡萄牙语设计的数据集。它包括一组由母语为葡萄牙语的人制定的查询，以及从一系列高质量的巴西葡萄牙语网站中获取的一组经过筛选的文档。与随机抓取的文档相比，这些网站更有可能被真实用户访问，从而确保了更具代表性和相关性的语料库。为了标记查询-文档对，我们使用了最先进的LLM，该模型在我们的评估中显示出与人类表现相当的标注者间一致性水平。我们提供了我们的注释方法的详细描述，以使其他人可以为其他语言创建类似的数据集，从而以成本效益的方式创建具有任意数量标记文档的高质量IR数据集。最后，我们评估了各种开源和商业检索器，作为基线系统。Quati可在https://huggingface.co/datasets/unicamp-dl/quati上公开获取，所有脚本均在https://github.com/unicamp-dl/quati上提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决葡萄牙语信息检索数据集缺乏的问题，提出了一种针对巴西葡萄牙语的数据集 Quati，以及使用 LLM 进行标注的方法。
关键思路

论文的关键思路是通过精选高质量的巴西葡萄牙语网站，构建一个更具代表性和相关性的语料库，并使用 LLM 进行标注，从而创建一个高质量的信息检索数据集。
其它亮点

论文提供了详细的标注方法，可以为其他语言创建类似的高质量信息检索数据集，实验评估了多种开源和商业的检索系统作为基线系统，Quati 数据集已经公开发布。
相关研究

近期相关研究包括：1.《A Study of Query Expansion Techniques for Cross-Lingual Information Retrieval》；2.《A Comparative Study of Information Retrieval Models for Monolingual and Cross-Lingual Ad-Hoc Retrieval》。

Quati: A Brazilian Portuguese Information Retrieval Dataset from Native Speakers

提问交流

提问交流