Isometric Neural Machine Translation using Phoneme Count Ratio Reward-based Reinforcement Learning

2024年03月20日
  • 简介
    传统的自动视频配音(AVD)流程包括三个关键模块,即自动语音识别(ASR)、神经机器翻译(NMT)和文本到语音(TTS)。在AVD流程中,等距NMT算法被用来控制合成输出文本的长度。这样做是为了保证在配音过程后,视频和音频的对齐同步。以往的方法主要集中在将机器翻译模型中源语言和目标语言文本的字符数和单词数对齐。然而,我们的方法旨在对齐音素数,因为它们与语音时长密切相关。本文介绍了一种使用强化学习(RL)开发等距NMT系统的方法,重点优化源语言和目标语言句子对中的音素数对齐。为了评估我们的模型,我们提出了音素计数一致性(PCC)得分,这是一种长度一致性的度量。我们的方法在英语-印地语语言对中应用时,相比最先进的模型,PCC得分有约36%的显著提高。此外,我们在我们的RL方法框架内提出了一种学生-教师架构,以保持音素计数和翻译质量之间的权衡。
  • 图表
  • 解决问题
    本文旨在开发一种基于强化学习(RL)的等距NMT系统,重点优化源语言和目标语言句子对中音素计数的对齐,以保证音频和视频同步。同时,提出了Phoneme Count Compliance(PCC)评分来评估模型的性能。
  • 关键思路
    本文的关键思路是使用强化学习算法优化等距NMT系统,以实现源语言和目标语言句子对中音素计数的对齐,从而提高音频和视频的同步性能。
  • 其它亮点
    本文提出的方法在英语-印地语语言对上的PCC评分相比现有技术有了约36%的显著提高。此外,文章还提出了学生-教师架构来平衡音素计数和翻译质量之间的权衡。实验使用了哪些数据集和开源代码没有具体说明。
  • 相关研究
    在最近的相关研究中,有一些相关的论文,例如《Neural Machine Translation by Jointly Learning to Align and Translate》和《Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论