- 简介随着多媒体内容的兴起,人类翻译越来越注重将文化适应性不仅仅局限于语言文字,还包括图像等其他模态来传达相同的意义。虽然有几种应用程序可以从中受益,但机器翻译系统仍然局限于处理语音和文本中的语言。在这项工作中,我们迈出了第一步,尝试将图像翻译成具有文化相关性的内容。首先,我们构建了三个流水线,包括最先进的生成模型来完成此任务。接下来,我们构建了一个由两部分组成的评估数据集:i)概念:包括600个图像,跨文化连贯,每个图像集中于单个概念;ii)应用:由100个从现实应用中精选的图像组成。我们进行了多方面的人类评估,以评估翻译后的图像的文化相关性和意义保留情况。我们发现,目前的图像编辑模型在这个任务上失败了,但可以通过利用LLMs和检索器来改进。最好的流水线只能将一些国家在较易的概念数据集中的5%的图像翻译成功,而在应用数据集中,对于一些国家,没有一项翻译成功,这突显了任务的挑战性。我们的代码和数据在此处发布:https://github.com/simran-khanuja/image-transcreation。
- 图表
- 解决问题如何将图像进行文化转换以使其更具文化相关性?当前机器翻译系统只能处理语音和文本,无法处理图像,因此需要探索新的解决方案。
- 关键思路使用三个最先进的生成模型构建三个流水线来进行图像文化转换。同时,构建了一个包含600个概念图像和100个应用图像的评估数据集,并进行了多方面的人类评估。
- 其它亮点研究发现,当前的图像编辑模型无法很好地完成这个任务,但可以通过在LLMs和检索器中使用来改进。最佳流水线只能将一些国家的概念数据集中的5%图像进行翻译,而一些国家的应用数据集中没有一张图像成功翻译。
- 其他相关研究包括图像翻译、图像生成、图像编辑和文化适应等方面。
沙发等你来抢
去评论
评论
沙发等你来抢