Cross-modality Data Augmentation for End-to-End Sign Language Translation
解决问题:该论文旨在解决手语视频与文本之间的模态差距和标注数据稀缺等问题,提出了一种新的跨模态数据增强框架,以改善端到端手语翻译的性能。
关键思路:论文提出了Cross-modality Data Augmentation (XmDA)框架,包括两个关键组件:跨模态混合和跨模态知识蒸馏。跨模态混合明确促进手语视频特征和手语表征之间的对齐,以缩小模态差距。跨模态知识蒸馏则利用手语表征到文本的翻译知识来指导口语文本的生成。相比于当前领域的研究,该论文的创新之处在于提出了跨模态数据增强框架,通过利用伪手语表征-文本对来转移手语表征-文本翻译模型的能力到端到端手语翻译任务中。
其他亮点:论文在PHOENIX-2014T和CSL-Daily两个广泛使用的手语翻译数据集上进行了实验,结果表明,XmDA框架显著且一致地优于基线模型。论文还分析了XmDA框架的性能提升原因,包括减少视频和文本之间的表征距离,以及改善低频词和长句的处理。该论文未提供开源代码。
关于作者:主要作者包括Jinhui Ye、Wenxiang Jiao、Xing Wang、Zhaopeng Tu和Hui Xiong。他们分别来自中国科学院自动化研究所、清华大学和新加坡国立大学。他们之前的代表作包括:“OpenKI: An Open Framework for Knowledge Inference”、“Bidirectional Attention Flow for Machine Comprehension”等。
相关研究:近期其他相关的研究包括:“Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation”(作者:Jing Huang等,机构:香港中文大学)和“Towards End-to-End Sign Language Recognition without Temporal Segmentation”(作者:Pengfei Zhu等,机构:悉尼科技大学)。
论文摘要:本文的主题是“跨模态数据增强用于端到端手语翻译”,旨在直接将手语视频转换为口语文本,而不需要中间的表示。由于手语视频和文本之间存在模态差异以及标记数据的稀缺性,因此这是一个具有挑战性的任务。为了解决这些问题,作者提出了一种新颖的跨模态数据增强(XmDA)框架,通过利用手语词汇翻译模型中的伪词汇-文本对,将强大的词汇-文本翻译能力转移到端到端手语翻译(即视频到文本)。具体而言,XmDA包括两个关键组件,即跨模态混合和跨模态知识蒸馏。前者明确地鼓励手语视频特征和手语词汇嵌入之间的对齐,以弥合模态差距。后者利用来自词汇-文本教师模型的生成知识来指导口语文本生成。在两个广泛使用的手语翻译数据集PHOENIX-2014T和CSL-Daily上的实验结果表明,所提出的XmDA框架显著且一致地优于基线模型。广泛的分析证实了作者的说法,即XmDA通过减少视频和文本之间的表示距离以及改善低频词和长句的处理来增强口语文本生成。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢