PAGURI: a user experience study of creative interaction with text-to-music models

简介

近年来，文本转音乐模型是自动生成音乐领域最大的突破。虽然它们无疑展示了技术进步，但如何将它们真正地融入音乐家和音乐从业者的艺术实践中尚不清楚。本文旨在通过Prompt Audio Generation User Research Investigation（PAGURI），即用户体验研究，研究音乐家和从业者如何与这些系统互动，评估他们的满意度，以回答这个问题。我们开发了一个在线工具，通过该工具，用户可以生成音乐样本，或应用最近提出的个性化技术，基于微调，使文本转音乐模型生成更符合他们需求和偏好的声音。我们使用问卷调查分析参与者如何与所提出的工具互动，以了解文本转音乐模型在增强用户创造力方面的有效性。结果表明，即使生成的音频样本和其质量可能并不总是满足用户的期望，大多数参与者仍会将该工具纳入其创作过程中。此外，他们提供了有关该系统及其融入他们音乐实践的潜在增强性的见解。
图表
解决问题

研究如何将文本转化为音乐，并探究如何将这种技术融入音乐创作实践中。
关键思路

通过开发一个在线工具，让用户生成音乐样本并应用个性化技术，以了解音乐家和从业者如何与这些系统交互，并评估他们的满意度。
其它亮点

论文开发了一个在线工具，让用户生成音乐样本并应用个性化技术，以了解音乐家和从业者如何与这些系统交互，并评估他们的满意度。结果显示，尽管生成的音频样本及其质量可能不总能满足用户的期望，但大多数参与者仍愿意将该工具纳入其创作过程中，并提供了潜在的改进建议。
相关研究

最近的相关研究包括：'Music Transformer: Generating Music with Long-Term Structure'，'MuseNet: A Deep Neural Network for Generating Music'，'A Survey of Music Generation Techniques with Deep Learning'等。

PAGURI: a user experience study of creative interaction with text-to-music models

评论