AI 生成音乐是一个发展了很长时间的研究领域,但之前生成的作品还停留在“人工智障”的阶段,Transformer 架构为音乐生成体验带来了 10x 的提升,2023 年出现的一系列基于 Transformer 的模型,包括 Google 的 MusicLM、Meta 的 MusicGen 以及 Suno 的 Bark,让 AI 生成的歌曲变成了可欣赏内容。类似 Midjourney 让人人都可作画,Suno AI 作为第一款普通人可用、带有人声、歌曲生成效果接近商业化水平的产品,为全球 5.89 亿音乐流媒体付费订阅用户提供了创作工具,开辟了增量市场。
Suno AI 的前身为团队训练的开源语音生成模型 Bark,2023 年 9 月在 discord 推出音乐生成 bot “Chirp”,音乐制作效果被用户称为 “the next level of music generation",在硅谷核心圈得到了广泛的流传,实现了用户的持续增长,根据 Similarweb 的数据,目前已经达到了约 220 万 MAU。
直到去年,技术路线基本收敛到 Autoregressive Transformer 和 Diffusion model 并存的模型结构。Transformer 架构对音乐生成的质量提升帮助很大,因为音乐是一个有长距离结构(多次主歌+副歌,且有呼应)的内容形态。Diffusion model 的加入,能有效避免避免了自回归模型容易产生的韵律/节奏不稳定、词语重复/遗漏等问题。
2023 年 Google 团队提出了 MusicLM 使用了 Autoregressive 结构,实现了从文本描述生成高保真音乐片段,并支持对音高、速度等的精细控制。同一年 Stability 团队的 Stable Audio 工作中也开始有 Diffusion model 的加入,使音乐生成的效果更加稳定,Stable Audio V2 中使用了和 Sora 一样结合 Transformer 和 Diffusion 的 DiT(Diffusion Transformer 结构)。以下是最近一年中的重要模型整理:
Suno AI 音乐生成对语义有着很好的理解能力,对不同风格的规律、长距离的结构都能比较好地捕捉,我们判断 Suno 一定用了 Transformer 结构,带来了能 scale up 的智能。同时,Suno 生成的稳定性也远好于其他模型,Diffusion 模型架构应该在其中使用。音乐生成的模型结构会与 Sora 的 DiT 结构比较接近,由几个部分组成:
1. Audio encoder: 对原始音频进行压缩,并将其量化到一个更低维度的潜在空间,该空间包含多个离散标记序列,每个序列代表音频的不同方面(例如,粗略和精细的声学细节)。最常见的选择是 Encodec 音频编码器(在 Meta MusicGen 论文中开源,用于 Suno 早期的 Bark 项目),或者 VAE model(在 diffusion model 设置中很受欢迎)
尽管分发渠道和用户消费形式出现了变化,但生产制作侧的垄断趋势还是比较明显:在 2022 年财报中,向索尼、环球等 record label companies 支付的版权费用占了 Spotify 收入的七成左右,因此流媒体平台当前还很难直接盈利。而当 AI 音乐生成降低了生产的制作与成本,是否能带来生产关系的变化呢?我们能期待 AI 有可能让版权优势不只被大公司垄断,而来自更多长尾、个性化的创作者。
2023 年 12 月 20 日 Suno 推出网页版产品 V2。产品一经推出,产品效果被用户称赞为“the next level of music generation"。Suno 生成的旋律,音调丝毫不逊色于专业作曲家,虽然仍缺少一些灵性,在歌词上有些模糊,但已经达到了 average 音乐人的水平。用户表示“是一个极好的工具,为创作打下基础” “生成的歌曲太吸引人了,又有趣又让人感到畏惧”“已经沉迷于它了”。
团队正在努力思考如何推出新的与 AI 模型的互动方式,来激发人们的创作欲望,并帮助他们表达出来。除了传统的写歌词方式,可能还会推出通过“敲击节奏”或“唱入旋律”的生成方式,以及如何将用户的生活片段转化为音乐创作的灵感,例如通过模型展示一天中发生的随机事件。Suno 也可能结合游戏元素,如建立聊天室,让用户通过投票决定音乐的下一步动作。
2)虽然目前用户对于 AI 音乐兴趣高涨,但能否持续吸引用户并保持高活跃度是一个未知数。只有 AI 创作的歌能真正吸引用户,才能保持创作者持续创作和平台的持续活跃。生成音乐再好,是不是最终大部分人还是更喜欢真实的人的作品?听众喜欢一首歌的原因,包括旋律、歌词表达的情感和心情、歌手本人、第一次听这首歌的场景等等。用户欣赏音乐也寄托着对歌手本人的喜欢,有种文化情怀。这和文生图、文生视频不一样,人们在音乐上寄予的情感确实会更多、更 personal。不过生成音乐与人类创作并不一定是完全泾渭分明的。音乐人可以将 AI 作为手段,提升创作效率和创新性。同时,即便是使用 AI 创作的歌曲,也会带有创作者本身的风格特点。随着用户对于 AI 接受度的增强,我们相信 AI 的“无情感”会被弱化。
3)Suno 是否会面临版权问题?环球音乐集团及多个出版商组成的维权团队曾对 Anthropic 提起侵权诉讼,指控其“非法复制和传播大量受版权保护的作品(包括歌词)”,以创建 AI 模型,Midjourney 也曾被多个画家诉讼。相信随着 Suno 的发展,未来也会面临类似的问题,但是文生图、文生视频等等领域的发展证明了,版权问题并不能阻碍 AI 创新的发展和繁荣。
4)生成音乐如何与人类创作共存也是一个值得探讨的话题。我们认为 AI 更可能成为内容生态的一部分,而非替代者。AI 音乐会导致“水平平均”音乐供给量大大增长,艺术家和个人也可以利用 AI 探索新音乐元素,创作出更具创意的作品。
• 软件合成器和采样器:软件合成器和采样器的出现使得音乐制作人能够模拟各种乐器声音,创造出前所未有的音色,极大地扩展了音乐创作的边界。
• 音乐制作软件:如 Ableton Live、FL Studio、Logic Pro 等,这些软件提供了丰富的音乐制作工具,使得音乐创作和制作更加民主化,即使是业余爱好者也能创作出专业水平的音乐。
用户评论总结
Suno 提升音乐创作效率,可以用在创作的多个环节:
• 创作初期:“我发现它是一个极好的工具,可以帮助我为写歌想出点子...它仍然足够打下基础。”
• 使用 suno 生成的内容作为元素:“Jimothy 说到他的流程:‘i extract vocals, edit them a bit to make them sound a little better, then rewrite all music from the ground up。’
• “我用在 Chirp 生成的歌曲与免费 AI 音频工具结合,从歌曲中提取某些元素。’”
1. https://a16z.com/the-future-of-music-how-generative-ai-is-transforming-the-music-industry/
2. https://arxiv.org/abs/2308.12982 A Survey of AI Music Generation Tools and Models
3. https://www.ifpi.org/our-industry/industry-data/