AI热门论文

Stable Audio Open

Julian D. Parker ,

2024年07月19日

开放式生成模型对于社区来说非常重要，因为它们允许进行微调，并在提出新模型时作为基准。然而，大多数当前的文本到音频模型都是私有的，无法供艺术家和研究人员构建。在这里，我们描述了一个新的开放权重文本到音频模型的架构和训练过程，该模型使用创意共用数据进行训练。我们的评估显示，该模型在各种指标上的表现与最先进的模型相当。值得注意的是，报告的FDopenl3结果（衡量生成物真实性的指标）展示了其在44.1kHz下进行高质量立体声声音合成的潜力。

Audio

AI

eess.AS

PDF

解读

Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos

2024年06月13日

生成逼真的人类动作音频对于许多应用非常重要，例如为电影或虚拟现实游戏创建音效。现有方法在训练期间隐含地假设视频和音频之间存在完全的对应关系，然而许多声音发生在屏幕之外，并且与视觉上的内容弱或没有对应关系，导致测试时出现无法控制的环境声音或幻觉。我们提出了一种新颖的环境感知音频生成模型AV-LDM。我们设计了一种新颖的音频调节机制，以学习在野外训练视频中将前景动作声音与环境背景声音分离开来。给定一个新的无声视频，我们的模型使用检索增强生成来创建与视觉内容在语义和时间上都匹配的音频。我们在两个野外视角视频数据集Ego4D和EPIC-KITCHENS上训练和评估了我们的模型，并介绍了Ego4D-Sounds——拥有120万个动作-音频对应关系的精选剪辑。我们的模型优于现有方法的一系列方法，允许控制环境声音的生成，甚至显示出推广到计算机图形游戏剪辑的前景。总的来说，我们的方法是第一个专注于观察到的视觉内容的视频到音频生成，尽管训练来自具有自然背景声音的未筛选剪辑。

CV

AI

Audio

PDF

解读

MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation

Hao-Chung Cheng ,

2024年07月21日

现有的文本转音乐模型可以产生高质量、多样性的音频。然而，仅有文本提示并不能精确控制生成音乐的和弦和节奏等时间上的音乐特征。为了解决这个挑战，我们介绍了MusiConGen，一个基于Transformer的时间条件文本转音乐模型，它建立在预训练的MusicGen框架之上。我们的创新在于一种针对消费级GPU量身定制的高效微调机制，它将自动提取的节奏和和弦作为条件信号集成进去。在推理过程中，条件可以是从参考音频信号提取的音乐特征，也可以是用户定义的符号和弦序列、BPM和文本提示。我们在两个数据集上进行了性能评估——一个是从提取的特征中得到的，另一个是从用户创建的输入中得到的，结果表明MusiConGen可以生成与指定条件相符的逼真的伴奏音乐。我们开源了代码和模型检查点，并在网上提供了音频示例，https://musicongen.github.io/musicongen_demo/。

Audio

AI

eess.AS

PDF

解读

Multi-Convformer: Extending Conformer with Multiple Convolution Kernels

Darshan Prabhu ,

Preethi Jyothi ,

2024年07月04日

卷积在端到端自动语音识别系统中变得至关重要，因为它们可以高效地建模本地上下文。值得注意的是，它在Conformer中的使用已经比基于Transformer的ASR系统表现更好。虽然Conformer中的卷积模块以外的组件已经得到重新审视，但是修改卷积模块本身的研究却很少。为此，我们引入了Multi-Convformer，它在Conformer的卷积模块中使用多个卷积核，并结合门控机制，有助于更好地建模不同粒度的本地依赖关系。我们的模型在性能上可以与现有的Conformer变体（如CgMLP和E-Branchformer）相媲美，同时更加参数高效。我们在四个不同的数据集和三种不同的建模范式下对我们的方法与Conformer及其变体进行了实证比较，并表现出高达8%的相对词错误率（WER）改进。

NLP

AI

ML

PDF

解读

Exploring the Benefits of Tokenization of Discrete Acoustic Units

2024年06月08日

本文展示了将语音学单位进行分词的优势，这种算法将基础词汇单元合并成更大、变化率更高的单元，在自然语言处理任务中已成为标准。然而，当词汇由音素或离散声学单元（DAU）组成时，这个想法却被大多数人忽视了。由于离散语言建模技术的成功，DAU作为一种基于音频的表示方式正在发挥越来越重要的作用。本文展示了对音素单位和DAU进行分词的优势，并在三个预测任务中进行了展示：字素到音素、字素到DAU、以及使用DAU语言建模进行无监督语音生成。我们证明了分词可以在所有三个任务中显著提高性能，以及训练和推理速度。我们还提供了理论洞见，以解释观察到的优越性能。

Audio

NLP

eess.AS

PDF

解读

Collaboration Between Robots, Interfaces and Humans: Practice-Based and Audience Perspectives

2024年07月24日

本文分析了一部混合媒体实验音乐作品，探索了人类音乐互动与新开发的小提琴界面、即兴小提琴手、互动视觉、机器人鼓手和即兴合成乐团的整合。我们首先提供了系统的详细技术概述，包括每个组件的设计和功能。然后，我们进行了一次基于实践的审查，考察了作品背后的创造过程和艺术决策，重点关注了在开发过程中遇到的挑战和突破。通过这种内省式分析，我们揭示了人类表演者和技术代理之间的合作动态，揭示了将传统音乐表现力与人工智能和机器人相融合的复杂性。为了衡量公众接受和解释角度，我们进行了一项在线调查，向广泛的受众分享了演出视频。从这次调查收集到的反馈提供了有价值的观点，涉及作品的可访问性、情感影响和感知艺术价值。受访者的反应强调了将先进技术融入音乐表演的转型潜力，同时也突出了进一步探索和完善的领域。

HCI

Audio

eess.AS

PDF

解读

Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models

Shahan Nercessian ,

Johannes Imort ,

2024年07月22日

本文提出并研究了使用神经音频编解码器语言模型来自动生成基于文本或参考音频提示的基于样本的乐器。我们的方法扩展了一个生成音频框架，以跨越88个键的音高，速度和结合文本/音频嵌入进行条件化。我们确定在生成的乐器中保持音色一致性是一个重要的挑战。为了解决这个问题，我们引入了三种不同的条件化方案。我们通过客观指标和人类听测试来分析我们的方法，证明了我们的方法可以产生引人入胜的乐器。具体而言，我们引入了一种新的客观指标来评估生成乐器的音色一致性，并调整了文本到乐器情况下的平均对比语言音频预训练（CLAP）分数，指出其天真的应用不适用于评估此任务。我们的研究结果揭示了音色一致性，生成样本的质量以及它们与输入提示的对应之间的复杂相互作用。

eess.AS

ML

Audio

PDF

解读

Composer's Assistant 2: Interactive Multi-Track MIDI Infilling with Fine-Grained User Control

Martin E. Malandro

2024年07月19日

我们介绍了Composer's Assistant 2，这是一个用于在REAPER数字音频工作站中进行交互式人机作曲的系统。我们的工作升级了Composer's Assistant系统（该系统在轨道-小节级别上执行符号音乐的多轨道填充），引入了广泛的新控件，以便用户对系统的输出进行细粒度控制。本文介绍的控件包括两种类型的节奏调节控件、水平和垂直音符起始密度控件、几种类型的音高控件和节奏兴趣控件。我们训练了一个类似于T5的转换器模型来实现这些控件，并作为我们系统的主干。通过这些控件，我们在客观指标上实现了比原始系统显着的改进。我们还研究了我们的模型对控件含义的理解程度，并进行了一项听力研究，结果发现我们的系统创作的音乐与真实音乐之间没有显著差异。我们发布了我们的完整系统，包括源代码、预训练模型和REAPER脚本。

Audio

ML

eess.AS

PDF

解读

The Interpretation Gap in Text-to-Music Generation Models

2024年07月14日

大规模的文本生成音乐模型显著增强了音乐创作能力，提供了前所未有的创造自由。然而，它们与人类音乐家有效合作的能力仍然有限。在本文中，我们提出了一个框架来描述音乐交互过程，包括表达、解释和执行控制。根据这个框架，我们认为现有的文本生成音乐模型和音乐家之间的主要差距在于解释阶段，模型缺乏解释音乐家控制的能力。我们还提出了两种策略来解决这个差距，并呼吁音乐信息检索社区解决解释挑战，以改善人工智能和人类音乐家的合作。

Audio

AI

PDF

解读

A Framework for AI assisted Musical Devices

Luis Munoz Saavedra ,

Francisco Jose Cuadrado ,

2024年07月03日

本文提出了一个新的框架，用于研究和设计人工智能辅助音乐设备（AIMEs）。首先，我们提出了这些设备的分类法，并用一组场景和人物角色进行了说明。之后，我们提出了一个通用的AIMEs实现架构，并从场景中提出了一些示例。我们展示了所提出的框架和架构是研究智能音乐设备的有效工具。

HCI

Audio

eess.AS

PDF

解读