Ensuring Consistency for In-Image Translation

2024年12月24日
  • 简介
    图像内机器翻译任务涉及将嵌入图像中的文本进行翻译,并以图像格式呈现翻译结果。虽然这一任务在电影海报翻译和日常场景图像翻译等各种场景中有许多应用,但现有的方法经常忽视了整个过程的一致性。我们认为在这个任务中需要保持两种一致性:翻译一致性和图像生成一致性。前者是指在翻译过程中融入图像信息,而后者是指保持文本图像与原始图像的风格一致性,确保背景完整性。为了解决这些一致性要求,我们提出了一种新的两阶段框架,称为HCIIT(高一致性图像内翻译),该框架首先使用多模态多语言大模型进行文本图像翻译,然后在第二阶段使用扩散模型进行图像填充。在第一阶段,采用链式思维学习来增强模型在翻译过程中利用图像信息的能力。随后,一个经过训练以生成风格一致的文本图像的扩散模型确保了图像中文本风格的统一,并保留了背景细节。我们整理了一个包含40万个风格一致的伪文本图像对的数据集用于模型训练。在整理的测试集和真实图像测试集上获得的结果验证了我们框架在确保一致性和生成高质量翻译图像方面的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    该论文旨在解决在图像内嵌文本翻译任务中的一致性问题,确保翻译后的文本不仅语义准确,而且与原始图像的风格和背景保持一致。这并非一个全新的问题,但在现有方法中,对于一致性的重视不足。
  • 关键思路
    论文提出了一种名为HCIIT(High-Consistency In-Image Translation)的两阶段框架,以实现翻译一致性和图像生成一致性。第一阶段使用多模态多语言大模型进行文本翻译,并通过链式思考学习增强模型对图像信息的利用;第二阶段则用扩散模型进行图像回填,确保文本风格与原图一致并保留背景细节。这种结合了多模态处理和风格一致性维护的方法是其创新之处。
  • 其它亮点
    实验设计包括构建了一个包含40万个风格一致的伪文本图像对的数据集用于训练。此外,在精心策划的测试集和真实场景图像上进行了验证,证明了该框架的有效性。值得注意的是,这项工作强调了翻译过程中图像信息的重要性,并提出了具体的解决方案来保证最终输出的质量。未来可以进一步探索更多类型的图像数据和更复杂的场景。
  • 相关研究
    近年来,关于图像内嵌文本翻译的研究逐渐增多,例如:《Scene Text Detection and Recognition: A Survey》综述了场景文本检测和识别领域的进展;《MADMU: Multimodal Adversarial Domain Mapping Unet for Cross-domain Image-to-image Translation》探讨了跨域图像到图像翻译的问题;还有《Text in Images: Towards End-to-end Recognition with Attention Mechanism》讨论了结合注意力机制的端到端图像中文本识别方法。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问