Pralekha: An Indic Document Alignment Evaluation Benchmark

向作者提问

NEW

简介

挖掘平行文档对面临着重大挑战，因为现有的句子嵌入模型通常具有有限的上下文窗口，这阻碍了它们有效地捕捉文档级别的信息。另一个被忽视的问题是缺乏高质量的平行文档对评估基准，这使得难以评估文档级别的挖掘方法，尤其是在印度语言方面。在这项研究中，我们介绍了Pralekha，这是一个大规模的文档级别对齐评估基准。Pralekha 包含超过200万份文档，未对齐与已对齐文档对的比例为1:2，涵盖了11种印度语言和英语。利用Pralekha，我们从三个维度评估了各种文档级别的挖掘方法：嵌入模型、粒度级别和对齐算法。为了应对使用句子和块级别对齐来对齐文档的挑战，我们提出了一种新的评分方法——文档对齐系数（DAC）。DAC 在基线池化方法上表现出显著改进，特别是在嘈杂场景下，精度平均提高了20-30%，F1分数提高了15-20%。这些结果突显了DAC在印度语言平行文档挖掘中的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在解决现有句子嵌入模型在并行文档对挖掘中的局限性，特别是这些模型通常具有有限的上下文窗口，无法有效捕捉文档级别的信息。此外，缺乏高质量的并行文档对评估基准也是一个重要问题，尤其是在印度语言方面。
关键思路

论文提出了一种新的评分方法——文档对齐系数（Document Alignment Coefficient, DAC），用于解决文档级别的对齐问题。DAC通过结合句子和块级别的对齐来提高并行文档挖掘的效果。与现有的基线池化方法相比，DAC在噪声场景下表现出显著的性能提升。
其它亮点

1. 引入了一个大规模的基准数据集Pralekha，包含超过200万份文档，覆盖11种印度语言和英语。 2. 数据集包括1:2的未对齐与对齐文档比例，为评估文档级别的对齐方法提供了丰富的资源。 3. 实验设计涵盖了三个维度：嵌入模型、粒度级别和对齐算法。 4. DAC在噪声场景下的表现优于基线方法，平均精度提高了20-30%，F1分数提高了15-20%。 5. 论文提供了开源代码和数据集，便于其他研究者复现和进一步研究。
相关研究

1. "Cross-lingual Document Alignment with Deep Neural Networks" - 探索了使用深度神经网络进行跨语言文档对齐的方法。 2. "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks" - 提出了一个改进的BERT模型，用于生成更有效的句子嵌入。 3. "A Survey on Cross-Lingual Text Mining" - 综述了跨语言文本挖掘的最新进展和技术。 4. "Parallel Corpus Mining with Noisy Channel Models" - 研究了使用噪声通道模型进行并行语料库挖掘的技术。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问