谷歌新出的神奇 AI 系统可以根据一段文本生成任何类别的音乐,不过公司出于风险考量,目前并没有发布的计划。这款名为 MusicLM 的系统显然不是第一个在 AI 生成音乐领域吃螃蟹的,其他类似的系统有可视化 AI 作曲 Riffusion、舞蹈扩散、谷歌的 AudioML、OpenAI 的 Jukebox。但由于技术限制和有限的训练数据,至今都没能生成编曲复杂或高保真的音乐。但或许 MusicLM 能有所不同。

根据论文中的详尽描述,MusicLM 是使用了 28 万小时的音乐进行训练,才学会从“十分复杂”的描述中生成连续的歌曲。“复杂”的文本可以是“由萨克斯独奏和独唱组成的令人难忘的爵士乐”,或者“低音贝斯且强节奏性的 90 年代柏林电子乐”等等。值得关注的是,MusicLM 所生成的歌曲虽然不一定具有创造性或音乐的凝聚力,但听起来却很像是人类能创造出的。

考虑圈子里没什么艺术家或乐器演奏家,我不好大加赞扬这些生成的样本。但即使是在冗长且弯弯绕绕的描述中,MusicLM 也能捕捉其中演奏器乐、旋律或情绪间的细微差别。

MusicLM 的 AI 能力不仅限于音乐片段的生成。谷歌研究者称,该系统可根据已有哼唱、演唱、口哨、乐器等旋律进行制作,甚至能根据多个连续描述,如“该冥想了”、“该起床了”、“该跑步了”、“该全力付出了”,生成一段“故事性”的叙事旋律,长度可达数分钟,足以被用作电影配乐了。

不仅如此,MusicLM 也可以借助图片和文本的双重引导,生成由特定乐器“演奏”的特定音乐类型,甚至就连 AI “演奏者”的经验水平、启发创作的地点或时代都能指定,比如“健身时的鼓励音乐”。

人无完人,MusicLM 也不是完美的,甚至也有不少缺陷。训练中难免会出现部分样本音质扭曲,生成的人声合唱和声也有很大的改进空间,多数的“歌词”部分还能模糊认出是英语,剩下的就全是合成了好几个音乐人的、电子音极重的胡言乱语了。

英文原文链接:

https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it

内容中包含的图片若涉及版权问题,请及时与我们联系删除