MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation

2024年06月15日
  • 简介
    在多媒体内容中,Foley音频对于增强沉浸式体验至关重要,但在AI生成内容(AIGC)领域面临着重大挑战。尽管文本和图像生成的AIGC技术有所进步,但由于跨模态场景匹配和内容相关性的困难,Foley音频配音仍然很基础。目前的文本转音频技术依赖于详细和声学相关的文本描述,因此在实际的视频配音应用中表现不佳。现有的数据集如AudioSet、AudioCaps、Clotho、Sound-of-Story和WavCaps等并不能完全满足实际的Foley音频配音任务的需求。为了解决这个问题,作者提出了多模态图像和叙事文本配音数据集(MINT),旨在增强主流配音任务,例如文学故事有声读物配音、图像/无声视频配音。此外,为了解决现有TTA技术在理解和规划复杂提示方面的局限性,作者提出了一个Foley音频内容规划、生成和对齐(CPGA)框架,其中包括一个内容规划模块,利用大型语言模型实现复杂多模态提示的理解。此外,使用基于近端策略优化的强化学习对训练过程进行了优化,显著提高了生成的Foley音频的对齐度和听觉真实感。实验结果表明,该方法显著推进了Foley音频配音领域,为多模态配音的挑战提供了强大的解决方案。即使使用相对轻量级的GPT-2模型,该框架也优于开源的多模态大型模型,如LLaVA、DeepSeek-VL和Moondream2。数据集可在https://github.com/borisfrb/MINT上获得。
  • 图表
  • 解决问题
    论文旨在解决AI生成内容中的foley音频配音问题,包括跨模态场景匹配和内容相关性等挑战,同时还要解决现有文本到音频技术在实际视频配音应用中的局限性。
  • 关键思路
    论文提出了一种多模态图像和叙述文本配音数据集(MINT),以增强主流配音任务,同时还提出了一个foley音频内容规划、生成和对齐(CPGA)框架,其中包括一个内容规划模块,利用大型语言模型实现复杂多模态提示的理解和规划,并使用基于近端策略优化的强化学习来优化训练过程,从而显著提高了生成foley音频的对齐性和听觉逼真度。
  • 其它亮点
    该论文提出的方法在多模态配音领域显著提高了性能,数据集MINT可以用于文学故事有声书的配音和图像/无声视频的配音,CPGA框架可以更好地理解和规划复杂的多模态提示,提高了生成foley音频的质量。此外,论文还使用了强化学习优化训练过程,并提供了开源代码。
  • 相关研究
    在这个领域的相关研究包括AudioSet、AudioCaps、Clotho、Sound-of-Story和WavCaps等数据集,以及LLaVA、DeepSeek-VL和Moondream2等开源多模态大型模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论