Music Arena: Live Evaluation for Text-to-Music

2025年07月28日
  • 简介
    我们推出了 Music Arena,这是一个开放平台,用于对文本生成音乐(TTM)模型进行可扩展的人类偏好评估。通过听力测试收集人类偏好是 TTM 评估中的黄金标准,但这类测试成本高昂,且由于测试协议可能因系统而异而难以比较。此外,人类偏好数据或许能帮助研究人员优化他们的 TTM 系统或改进自动评估指标,但目前尚缺乏开放且可持续的偏好数据来源。为此,我们希望通过提供*实时*评估来填补这些空白。在 Music Arena 中,真实用户输入自己选择的文本提示,并比较来自两个 TTM 系统的生成结果,用户的偏好将被记录并用于生成排行榜。虽然 Music Arena 借鉴了其他人工智能领域中实时评估的最新趋势,我们也针对音乐领域设计了多项关键功能:一个基于大语言模型(LLM)的路由系统,用于处理 TTM 系统之间异构的输入输出类型;以及收集*详细*的偏好信息,包括用户的聆听行为数据和自然语言反馈。我们还提出了一项滚动数据发布政策,并确保用户隐私,从而提供可持续的偏好数据来源,并提升平台的透明度。通过标准化的评估协议、透明的数据访问政策以及针对音乐的特色功能,Music Arena 不仅解决了 TTM 生态系统中的关键挑战,也展示了如何将实时评估有效地适配到特定人工智能领域的独特特性中。 Music Arena 的网址为:https://music-arena.org
  • 图表
  • 解决问题
    论文试图解决文本到音乐生成模型(TTM)缺乏统一、开放、可扩展的人类偏好评估平台的问题。当前,人类偏好评估虽然被认为是黄金标准,但由于成本高、协议不一致、数据难以比较,限制了其可扩展性和复现性。此外,缺乏一个可持续更新的偏好数据来源也阻碍了模型和评估指标的改进。
  • 关键思路
    论文提出Music Arena,一个开放、实时的人类偏好评估平台,允许用户自由输入文本并比较不同TTM系统的输出,通过收集用户偏好构建动态排行榜。相比现有方法,该平台引入了音乐特定的设计,如基于LLM的路由系统来处理不同模型的异构输入输出格式,并收集详细的用户反馈和听觉行为数据,从而实现更精准的模型评估与优化。
  • 其它亮点
    1. 设计了基于大语言模型(LLM)的路由系统,实现对多种TTM模型接口的统一处理。 2. 平台支持用户自由输入文本提示,增强了评估的真实性和多样性。 3. 收集细粒度偏好数据,包括比较选择、听觉行为日志和自然语言反馈。 4. 提出滚动数据发布策略,并提供用户隐私保护机制,确保数据的可持续性和透明性。 5. 平台已上线(music-arena.org),具备开放性和可复现性,未来可支持更多TTM模型与评估研究。
  • 相关研究
    1. Human Evaluation for Text-to-Music Generation: A Comparative Study of Preference Metrics 2. MusicGen Arena: Live Benchmarking of Music Generation Models 3. Preference Learning for Text-to-Music Synthesis Using Crowdsourced Listening Tests 4. Toward Standardized Evaluation Protocols in Generative Music Systems 5. Evaluating Expressive Music Generation through Human Interaction and Feedback
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论