- 简介在对抗广泛的在线虚假信息的战斗中,一个日益严重的问题是文本-图像不一致性,即将误导性的图像与意图或含义不同的文本错误地配对。现有的基于分类的文本-图像不一致性方法可以识别上下文不一致性,但无法提供人类可以理解的可解释的决策依据。虽然人类评估更加细致,但在规模上不切实际且容易出错。为了解决这些限制,本研究介绍了一种名为D-TIIL(基于扩散的文本-图像不一致性定位)的方法,该方法采用文本到图像扩散模型来定位文本和图像对中的语义不一致性。这些在大规模数据集上训练的模型充当“全知”代理,过滤掉不相关的信息并融入背景知识来识别不一致性。此外,D-TIIL使用文本嵌入和修改的图像区域来可视化这些不一致性。为了评估D-TIIL的有效性,我们引入了一个新的TIIL数据集,其中包含14K个一致和不一致的文本-图像对。与现有数据集不同,TIIL可以在单个单词和图像区域的级别上进行评估,并经过精心设计以代表各种不一致性。D-TIIL提供了一种可扩展和基于证据的方法来识别和定位文本-图像不一致性,为未来应对虚假信息的研究提供了一个强大的框架。
- 图表
- 解决问题本论文旨在解决在线虚假信息的广泛传播问题中的文本-图像不一致性问题,即图像被误导地与不同意图或含义的文本配对的问题。现有的基于分类的方法可以识别上下文不一致性,但不能提供人类可理解的解释来支持其决策。
- 关键思路本文提出了一种新的方法:D-TIIL(基于扩散的文本-图像不一致性定位),它采用文本到图像扩散模型来定位文本和图像对中的语义不一致性。这些模型在大规模数据集上训练,充当“全知”代理,过滤掉不相关的信息并融合背景知识以识别不一致性。此外,D-TIIL使用文本嵌入和修改的图像区域来可视化这些不一致性。
- 其它亮点本文的亮点包括:1. 提出了一种新的方法来解决文本-图像不一致性问题;2. 引入了一个新的数据集TIIL,用于评估D-TIIL的有效性;3. D-TIIL提供了一种可扩展的、基于证据的方法来识别和定位文本-图像不一致性,为未来打击虚假信息提供了一个坚实的框架。
- 最近在这个领域中,还有一些相关的研究,如:1. R. Zhang等人的“Adversarial Training for Text-to-Image Retrieval”;2. L. Yu等人的“Deep Text-Image Retrieval with Cross-Modal Transformation and Attentional Supervision”等。
沙发等你来抢
去评论
评论
沙发等你来抢