图片

本文简要介绍TMM 2022录用论文“Cross-Lingual Text Image Recognition via Multi-Hierarchy Cross-Modal Mimic”的主要工作。该论文主要针对跨语言文本图像识别(CLTIR)任务,提出了一种多层次跨模态的模仿学习框架,将机器翻译模型作为教师模型,在语义特征空间中引导学生模型进行学习,并引入对抗性学习和注意力机制,利用全局和局部知识改善端到端识别性能。该框架还可以利用庞大的双语语料库进一步提高性能。

论文链接:https://ieeexplore.ieee.org/document/9798797

内容中包含的图片若涉及版权问题,请及时与我们联系删除