我们推出了 MusicLM,这是一种模型,可以从文本描述中生成高保真的音乐,例如“以扭曲吉他伴奏的镇定小提琴旋律”。MusicLM 将有条件的音乐生成过程视为一个分层的序列模型任务,并以 24kHz 的速度生成音乐,在几分钟内保持一致性。我们的实验表明,MusicLM 在音频质量和文本描述一致性方面均优于以前的系统。此外,我们展示了 MusicLM 可以同时基于文本和旋律进行约束,可以将口哨声和哼唱旋律转化为文本标题中描述的风格。为了支持未来的研究,我们公开发布了一个数据集 MusicCaps,其中包含 5.5k 个音乐-文本对,由人工专家提供了丰富的文本描述。

数据统计

相关导航

暂无评论

暂无评论...