AnyTrans: Translate AnyText in the Image with Large Scale Models

2024年06月17日
  • 简介
    本文介绍了AnyTrans,这是一个全面的框架,用于Translate AnyText in the Image(TATI)任务,包括多语言文本翻译和图像内文本融合。我们的框架利用大规模模型(如大型语言模型(LLMs)和文本引导扩散模型)的优势,在翻译过程中结合文本和视觉元素的上下文线索。LLMs的少样本学习能力允许通过考虑整体上下文来翻译碎片化的文本。同时,扩散模型的高级修补和编辑能力使得将翻译后的文本无缝融合到原始图像中成为可能,同时保留其风格和真实感。此外,我们的框架可以完全使用开源模型构建,无需训练,因此易于使用和扩展。为了促进TATI任务的进展,我们精心编制了一个名为MTIT6的测试数据集,其中包含六种语言对的多语言文本图像翻译数据。
  • 图表
  • 解决问题
    本文介绍了AnyTrans框架,用于解决图像中的多语言文本翻译和文本融合问题。该框架利用大规模模型的优势,如大语言模型(LLMs)和文本引导扩散模型,在翻译过程中考虑文本和视觉元素的上下文线索。
  • 关键思路
    本文提出的AnyTrans框架可以处理多语言文本翻译和文本融合问题,并使用大型语言模型和扩散模型来考虑文本和视觉元素的上下文线索。与当前研究相比,本文框架具有易于访问和易于扩展的优点。
  • 其它亮点
    本文框架可以处理多语言文本翻译和文本融合问题,并使用大型语言模型和扩散模型来考虑文本和视觉元素的上下文线索。本文使用了自己编制的测试数据集MTIT6,并且所有模型都是开源的,不需要训练。值得进一步研究的是如何将该框架应用于其他任务。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Unsupervised Multilingual Image Captioning》、《Multimodal Machine Translation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论