- 简介近年来,生成无声视频的声音已经引起了越来越多的关注,主要是因为它在简化视频后期制作方面的实用性。然而,现有的视频声音生成方法尝试直接从视觉表示中创建声音,由于视觉表示与音频表示难以对齐,这可能会带来挑战。本文介绍了SonicVisionLM,这是一个新颖的框架,旨在通过利用视觉语言模型(VLMs)生成各种各样的声音效果。我们不是直接从视频生成音频,而是利用强大的VLMs的能力。当提供无声视频时,我们的方法首先使用VLM识别视频中的事件,以建议与视频内容相匹配的可能声音。这种方法的转变将图像和音频对齐的具有挑战性的任务转化为更加熟悉的通过流行的扩散模型对图像到文本和文本到音频进行对齐的子问题。为了提高LLMs音频推荐的质量,我们收集了大量数据集,将文本描述映射到特定的声音效果,并开发了一个时间控制的音频适配器。我们的方法超越了当前将视频转换为音频的最先进方法,增强了与视觉的同步,并改善了音频和视频组件之间的对齐。项目页面:https://yusiissy.github.io/SonicVisionLM.github.io/
- 图表
- 解决问题论文旨在解决为无声视频生成声音的问题,通过利用视觉-语言模型(VLM)来生成各种声音效果,从而避免直接从视觉表示中生成声音所面临的挑战。
- 关键思路通过使用强大的VLM,将视频中的事件识别为文本描述,再将文本描述转化为声音效果,从而避免了直接从视觉表示中生成声音的困难。
- 其它亮点论文提出的SonicVisionLM框架在为视频生成音频方面超越了当前最先进的方法,提高了音频与视觉之间的同步性和对齐性。研究人员还开发了一个时间控制的音频适配器,并收集了大量数据集来提高VLM的音频推荐质量。该论文的项目页面提供了开源代码和数据集。
- 在这个领域中,最近的相关研究包括:1. "Audio-Visual Scene-Aware Dialog";2. "SoundSpaces: Audio-Visual Navigation in 3D Environments";3. "Seeing Sound: Vision and Language in Learning to Classify Ambiance in Videos"。
沙发等你来抢
去评论
评论
沙发等你来抢