Sora Detector: A Unified Hallucination Detection for Large Text-to-Video Models

简介

文中提到，文本到视频（T2V）生成模型的快速发展使得可以根据文本描述合成高保真视频内容。尽管取得了显著进展，这些模型通常容易出现幻觉，生成与输入文本相矛盾的内容，这对它们的可靠性和实际应用构成了挑战。为解决这一关键问题，作者介绍了SoraDetector，这是一个新颖的统一框架，旨在检测各种大型T2V模型中的幻觉，包括最先进的Sora模型。该框架建立在对幻觉现象的全面分析基础上，根据其在视频内容中的表现进行分类。SoraDetector利用最先进的关键帧提取技术和多模态大型语言模型，首先评估提取的视频内容摘要与文本提示之间的一致性，然后从帧中构建静态和动态知识图（KGs），以检测单帧和跨帧的幻觉。SoraDetector提供了一种稳健且可量化的一致性、静态和动态幻觉的度量方式。此外，作者还开发了Sora Detector Agent，自动化幻觉检测过程，并为每个输入视频生成完整的视频质量报告。最后，作者提出了一个新颖的元评估基准T2VHaluBench，精心设计以促进T2V幻觉检测进展的评估。通过对Sora和其他大型T2V模型生成的视频进行广泛实验，作者展示了他们的方法在准确检测幻觉方面的有效性。代码和数据集可通过GitHub访问。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决文本到视频生成模型中的幻觉问题，提出了一种统一的框架SoraDetector来检测幻觉并提供可靠的一致性测量。
关键思路

SoraDetector框架通过对幻觉现象的全面分析，利用关键帧提取技术和多模态大型语言模型构建静态和动态知识图谱，从而检测单帧和跨帧的幻觉，并提供强大的自动化检测能力。
其它亮点

论文介绍了SoraDetector Agent自动化检测幻觉的过程，并提供完整的视频质量报告。同时，还构建了T2VHaluBench元评估基准来促进T2V幻觉检测的评估。实验结果表明，SoraDetector可以准确地检测幻觉。
相关研究

相关研究包括文本到视频生成模型的改进、幻觉检测方法的研究以及基于知识图谱的视频理解等。

Sora Detector: A Unified Hallucination Detection for Large Text-to-Video Models

提问交流

提问交流