- 简介挖掘平行文档对面临着重大挑战,因为现有的句子嵌入模型通常具有有限的上下文窗口,这阻碍了它们有效地捕捉文档级别的信息。另一个被忽视的问题是缺乏高质量的平行文档对评估基准,这使得难以评估文档级别的挖掘方法,尤其是在印度语言方面。在这项研究中,我们介绍了Pralekha,这是一个大规模的文档级别对齐评估基准。Pralekha 包含超过200万份文档,未对齐与已对齐文档对的比例为1:2,涵盖了11种印度语言和英语。利用Pralekha,我们从三个维度评估了各种文档级别的挖掘方法:嵌入模型、粒度级别和对齐算法。为了应对使用句子和块级别对齐来对齐文档的挑战,我们提出了一种新的评分方法——文档对齐系数(DAC)。DAC 在基线池化方法上表现出显著改进,特别是在嘈杂场景下,精度平均提高了20-30%,F1分数提高了15-20%。这些结果突显了DAC在印度语言平行文档挖掘中的有效性。
-
- 图表
- 解决问题该论文旨在解决现有句子嵌入模型在并行文档对挖掘中的局限性,特别是这些模型通常具有有限的上下文窗口,无法有效捕捉文档级别的信息。此外,缺乏高质量的并行文档对评估基准也是一个重要问题,尤其是在印度语言方面。
- 关键思路论文提出了一种新的评分方法——文档对齐系数(Document Alignment Coefficient, DAC),用于解决文档级别的对齐问题。DAC通过结合句子和块级别的对齐来提高并行文档挖掘的效果。与现有的基线池化方法相比,DAC在噪声场景下表现出显著的性能提升。
- 其它亮点1. 引入了一个大规模的基准数据集Pralekha,包含超过200万份文档,覆盖11种印度语言和英语。 2. 数据集包括1:2的未对齐与对齐文档比例,为评估文档级别的对齐方法提供了丰富的资源。 3. 实验设计涵盖了三个维度:嵌入模型、粒度级别和对齐算法。 4. DAC在噪声场景下的表现优于基线方法,平均精度提高了20-30%,F1分数提高了15-20%。 5. 论文提供了开源代码和数据集,便于其他研究者复现和进一步研究。
- 1. "Cross-lingual Document Alignment with Deep Neural Networks" - 探索了使用深度神经网络进行跨语言文档对齐的方法。 2. "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks" - 提出了一个改进的BERT模型,用于生成更有效的句子嵌入。 3. "A Survey on Cross-Lingual Text Mining" - 综述了跨语言文本挖掘的最新进展和技术。 4. "Parallel Corpus Mining with Noisy Channel Models" - 研究了使用噪声通道模型进行并行语料库挖掘的技术。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流