- 简介尽管在视频大规模多模态模型(video-LMMs)方面取得了显著进展,但在长视频中实现有效的时序定位仍然是现有模型面临的挑战。为了解决这一局限性,我们提出了一种新的后训练框架——时序偏好优化(TPO),旨在通过偏好学习增强video-LMMs的时序定位能力。TPO采用自训练方法,使模型能够通过利用精心策划的两个粒度级别的偏好数据集来区分定位准确和不太准确的时序响应:局部时序定位,专注于特定的视频片段;以及全面时序定位,捕捉整个视频序列中的扩展时序依赖关系。通过对这些偏好数据集进行优化,TPO显著增强了时序理解能力,同时减少了对人工标注数据的依赖。在三个长视频理解基准测试——LongVideoBench、MLVU和Video-MME上的广泛实验表明,TPO在两种最先进的video-LMMs上均表现出有效性。值得注意的是,LLaVA-Video-TPO在Video-MME基准测试中确立了其作为领先的7B模型的地位,突显了TPO作为推进长视频理解中时序推理的可扩展且高效的解决方案的潜力。项目页面:https://ruili33.github.io/tpo_website。
- 图表
- 解决问题论文试图解决现有视频大型多模态模型(video-LMMs)在长视频中实现有效时间定位的挑战。这是一个重要但尚未完全解决的问题,特别是在处理长时间依赖和具体片段的时间对齐方面。
- 关键思路关键思路是引入了时间偏好优化(TPO),这是一种基于偏好学习的后训练框架,旨在通过自我训练方法增强video-LMMs的时间定位能力。TPO利用精心策划的偏好数据集,在局部和全局两个粒度上优化模型的时间理解能力,从而减少了对手动标注数据的依赖。这一方法相比现有技术更具创新性,因为它不仅提高了时间定位的准确性,还降低了人工标注的成本。
- 其它亮点论文的亮点包括:1) 在三个长视频理解基准测试(LongVideoBench, MLVU, 和 Video-MME)上的广泛实验验证了TPO的有效性;2) LLaVA-Video-TPO在Video-MME基准上取得了领先成绩;3) 提出了两种不同粒度的时间定位优化方法;4) 开源项目页面提供了更多详细信息和代码资源,便于后续研究和应用开发。
- 最近在这个领域内的相关研究包括:1) 《Enhancing Temporal Localization in Video Understanding with Self-Supervised Learning》;2) 《Temporal Consistency Learning for Long-Form Video Summarization》;3) 《Improving Temporal Grounding via Contrastive Learning on Unlabeled Videos》。这些研究都致力于提高视频理解中的时间一致性,但TPO通过引入偏好学习提供了一种新颖且有效的解决方案。
沙发等你来抢
去评论
评论
沙发等你来抢