SonicVisionLM: Playing Sound with Vision Language Models

简介

近年来，由于在简化视频后期制作方面的实用性，生成无声视频的声音任务受到越来越多的关注。然而，现有的视频声音生成方法试图直接从视觉表现中创建声音，这可能会因视觉表现与音频表现难以对齐而具有挑战性。本文介绍了一种新颖的框架SonicVisionLM，旨在通过利用视觉语言模型生成各种各样的音效。我们不是直接从视频生成音频，而是利用强大的视觉语言模型(VLMs)的能力。当提供一个无声视频时，我们的方法首先使用VLMs识别视频中的事件，以建议与视频内容匹配的可能声音。这种方法的转变将图像和音频对齐的具有挑战性的任务转化为更加熟悉的子问题，即通过流行的扩散模型将图像对齐到文本和文本对齐到音频。为了改进LLMs的音频推荐质量，我们收集了一组广泛的数据集，将文本描述映射到特定的音效，并开发了时间控制的音频适配器。我们的方法超越了当前将视频转换为音频的最新方法，从而增强了与视觉的同步性，并改善了音频和视频组件之间的对齐。项目页面：https://yusiissy.github.io/SonicVisionLM.github.io/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决生成无声视频的音频的问题，通过利用视觉语言模型来生成各种音效，提高音频和视频的同步性和对齐度。
关键思路

论文的关键思路是使用视觉语言模型来识别视频中的事件并建议匹配的音效，将图像和音频的对齐问题转化为更好研究的子问题。
其它亮点

论文使用了大量的数据集来提高语言语言模型的质量，并开发了时间控制音频适配器。实验结果表明，该方法优于现有的视频转音频方法，具有更好的视觉同步性和音频对齐度。项目页面提供了开源代码。
相关研究

最近的相关研究包括：《Generating Sounds from Videos of Objects in Unconstrained Environments》、《DeepSBD: Generating High-quality Sound for Autonomous Driving》、《Visual to Sound: Generating Natural Sound for Videos in the Wild》等。

SonicVisionLM: Playing Sound with Vision Language Models

提问交流

提问交流