AutoAD III: The Prequel -- Back to the Pixels

2024年04月22日
  • 简介
    生成电影音频描述(AD)是一项具有挑战性的任务,需要细粒度的视觉理解和对角色及其名称的认知。目前,用于AD生成的视觉语言模型受到缺乏合适的训练数据的限制,同时它们的评估也受到使用非专门针对AD领域的性能度量的阻碍。在本文中,我们做出了三个贡献:(i)我们提出了两种构建带有对齐视频数据的AD数据集的方法,并使用这些方法构建了训练和评估数据集。这些数据集将公开发布;(ii)我们开发了一种基于Q-former的架构,它可以摄取原始视频并生成AD,使用冻结的预训练视觉编码器和大型语言模型;(iii)我们提供了新的评估指标来评估AD质量,这些指标与人类表现非常匹配。总的来说,我们改善了AD生成的最新技术水平。
  • 图表
  • 解决问题
    本论文旨在解决生成电影音频描述(AD)的挑战性任务,包括细粒度的视觉理解和对角色及其名称的认知,同时提出了两种构建AD数据集的方法,并开发了新的评估指标以评估AD质量。
  • 关键思路
    本论文提出了一种基于Q-former的架构,使用预训练的视觉编码器和大型语言模型,从原始视频中生成AD,并提出了新的评估指标以评估AD质量。
  • 其它亮点
    论文提供了两种构建AD数据集的方法,并公开了这些数据集。实验使用了现有数据集,并开发了新的评估指标来评估AD质量。提出的Q-former-based架构在AD生成方面取得了最新的成果。
  • 相关研究
    最近的相关研究包括:1)使用深度强化学习生成AD的研究;2)使用图像字幕生成AD的研究;3)使用注意力机制生成AD的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论