Semisupervised Neural Proto-Language Reconstruction

2024年06月09日
  • 简介
    现有的祖语(原始语言)比较重建实现通常需要完全监督。然而,历史重建模型只有在能够用有限的标记数据进行训练时才具有实际价值。我们提出了一种半监督历史重建任务,其中模型仅在少量标记数据(具有原型形式的同源词集)和大量未标记数据(不具有原型形式的同源词集)上进行训练。我们提出了一种神经架构用于比较重建(DPD-BiReconstructor),其中包含语言学家比较方法的一个重要见解:重建的单词不仅应该可以从其子单词重建,而且还应该可以确定性地转换回其子单词。我们展示了这种架构能够利用未标记的同源词集,在这个新任务上优于强半监督基线。
  • 图表
  • 解决问题
    本文旨在解决半监督历史重建任务,即使用少量标记数据和大量未标记数据进行历史语言重建模型的训练。
  • 关键思路
    本文提出了一个神经架构(DPD-BiReconstructor),将语言学家的比较方法的重要洞察力纳入考虑,即重建的单词不仅应该能够从其子词重建,还应该能够确定性地转换回其子词。该架构利用未标记同源词集,能够在该新任务上优于强半监督基线。
  • 其它亮点
    本文使用少量标记数据和大量未标记数据进行历史语言重建模型的训练,提出了DPD-BiReconstructor神经架构,该架构能够在该新任务上优于强半监督基线。
  • 相关研究
    最近的相关研究包括使用神经网络进行历史语言重建的工作,但这些工作通常需要完全监督。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论