近期,一个AI作曲网站Suno突然爆红,这个网站可以根据用户提供的歌词和音乐风格快速生成一些听起来完成度颇高的作品,无论是纯音乐还是人声演唱都能轻松拿捏,甚至连曲子封面都一并给生成了。“人人都是作曲家”的时代似乎就此打开,大家也纷纷在各大视频网站分享自己用Suno“创作”的音乐,什么funk版《大悲咒》重金属版《让我们荡起双桨》,以及某个“松弛”梗相关的视频,都给方妹的心灵以强烈的震撼。
Suno的出现不仅带来了一波内容创作的热潮,由此引发的行业讨论同样很多。有人科普它的算法逻辑,还有人分析这个工具未来对音乐行业的影响。而更多人关心的,则是那个经久不衰,让人焦虑的话题“AI是否会让真人失业”?
方妹我自己对此非常好奇,又听说魔方的音频组最近也在对AI音乐和AI人声技术做一些前瞻性研究,所以我们再次请到了音频组的磊哥和Archie来分享一些他们对于这门新技术的理解~
Archie表示,其实学术界对于“计算机作曲”这件事的研究和探索,比大众想象得要早很多,早在近70年前的1957年,就有学者用非常古早的Illiac计算机制作了一首弦乐四重奏。
80、90年代,算法生成音乐的研究论文已经有了不少。2016年,索尼的计算机科学实验室(CSL)就曾发布过一个让AI使用披头士乐队风格生成的流行歌曲“Daddy's Car”。
近几年间。类似的工具不断涌现,各家涉足AI领域的大厂都推出了自家的AI音乐生成的工具。比如Google推出的Music LM,Meta(也就是Facebook)推出的Music Gen,都比Suno问世的更早。其使用方式也同样是,根据使用者给出的文本和提示词生成音乐。其中,Music Gen不仅输出音乐的人声部分比Suno更好更自然,甚至还允许使用者哼唱一段旋律,再让AI根据这段哼唱来生成音乐。
其实,无论是Suno、Music LM还是Music Gen都是同一种技术方向的产物。训练音乐AI和训练绘图AI的技术都是基于diffusion(扩散生成)和transformer模型。AI实际上是将海量的歌曲频谱转化为某种“图形”进行学习,再根据使用者给出的关键词进行去噪还原。只不过,一般来说,音乐AI中的人声和旋律是对应的两套不同的模型。
考虑到绘图AI这两年日新月异的发展,音乐AI的进步速度也并不那么令人意外。现如今出圈的Suno也已经是第三代了(Suno V3)。所以,对于音乐行业的从业者们来说,AI音乐并不是新鲜事,只不过Suno v3的出现,让这个领域成功出圈,引起了大众用户的注意。
那么问题来了,既然如此,为何火爆网络的会是Suno呢?Archie表示,其实Suno真正出色的地方,是它的“产品设计”。比如,Suno在音乐模型之外,还整合了自然语言模型,来理解使用者的意图,能理解多种语言(比如中文)的命令,使用门槛比其它只支持英语的音乐AI要友好得多。
而且它的网站界面设计十分优美清晰,可以在主页试听别的用户生成的音乐,甚至有点赞排行榜。在你听别人用Suno创作的音乐时,还会展示生成这首歌曲的用户使用的命令和关键词,可以说每一首高赞歌曲都是新用户最好的“入门指南”。而且Suno的注册十分便捷,每日都有免费的生成次数,甚至官方还表示使用付费版Suno生成的音乐可以自由商用,进一步促进了相关作品在各个平台的传播。
如果说其它音乐AI还停留在“学术实验”的阶段,Suno则是直接把它自己做到了“商品化”的地步。再加上23年开始,AI工具开始被大众所注意,每个行业里优秀的AI工具都会被拿出来讨论一番,Suno因此作为音乐行业的代表,成了备受瞩目的焦点。
那么话说回来,既然Suno的“产品体验”做得相当不错,那么它在专业领域的应用如何呢?实际上——几乎还不能用。磊哥认为,包括Suno在内,目前所有的作曲AI都有着几个共性的问题,导致其与主流音乐的生产模式不兼容。
一是,当前AI产出的音乐品质还远远达不到商用的标准,这里的“品质”包括音乐的音质,音乐的长度,以及无法提供分轨等等。之所以有这个问题,则和AI生成音乐的算法逻辑相关,即,AI是把一段噪音逆向变为一段音乐,所以像音乐分轨这种人类音乐制作流程的常规步骤,它反倒给不出来。
二是,AI作曲目前的可控性和效率也不够理想。目前音乐AI生成的音乐随机性非常强,即便给予同样的主题和音乐风格,能否生成出较好的旋律还是很靠运气的,也许你需要生成100首才有一首比较合适的,而且基于上一个问题,这个合适的作品还无法进行调整和修改。
三是,即便是接入了大语言模型的Suno,对于指令的理解程度也有待提升。首先是对一些音乐风格的理解存在问题。比如让Suno做古典乐,经常得到的是接近新世纪风格的轻音乐。再比如让它创作某种乐器的Solo曲,也基本无法做到。当然这个问题可能与模型的训练量有关,或许解决起来没有前两者那么困难。
四是,版权隐患。虽然Suno声称付费用户无需担心生成的音乐侵权,并且也做了一些措施来规避可能的版权问题,比如限制了用户输入特定艺术家名称作为指令。但其模型在训练时是否使用了未授权的音频,则是十分可疑的,这同样是一种巨大的隐患。
基于以上几个情况,目前作曲AI工具无法在游戏音乐制作的主要流程中使用。当然,有时他们会让AI生成一些风格化音乐,填充到demo里作为和其它部门或外部合作方沟通时的示意,但最终还是会被替换。
不过换个角度来看,如果不将Suno视为一种生产工具,而是作为一个有趣的“玩具”,那它还是相当称职的。比如B站上那些搞笑得AI音乐视频,他们也觉得十分生草。磊哥甚至表示,倘若并不是很严肃的运用场景,而是类似于为某个有家园系统的游戏加入一个AI音乐接口,让玩家可以根据自己的喜好生成家园的BGM,可能是目前AI音乐与游戏结合一种更实际得可能性。
不过在音乐AI外,另一类音频AI工具则已经逐步被游戏音效工作所接受,那就是“AI语音”。如今的语音AI技术迭代非常快,甚至一些开源的AI语音工具生成的结果已经能够让人有“真假难辨”之感。对于一些对语气要求不那么严苛,但数量又较为庞大的配音需求,比如战斗信息播报,AI语音可以减少很多工作量。这项技术,应该很快就会在游戏行业中得到广泛运用。甚至或许某一天,大家可以在游戏开始前,像上传照片AI捏脸那样,通过说几句话,就让游戏中的主角拥有和现实中的自己较为相似的声线,从而提升代入感。
采访的最后,我们问了磊哥,是否会担心AI音乐的进一步发展让自己失业?磊哥表示,他很认同瑞典女歌手Robyn的一句发言:“好的流行音乐,是美妙的旋律和真实的人类情感二者的结合。”AI音乐作品让人觉得别扭的点,是缺乏了真实的情感表达。用比较感性的话来说,现在的AI音乐或许听起来不刺耳,却没有让人落泪的力量。
所以磊哥表示,在AI音乐能产生让人落泪的作品之前,他都不会担心“AI音乐替代人类音乐”这件事。也许它未来可以是一种提升效率的工具,让音乐行业的生产流程发生改变。以后大家追的明星也许不再是“歌手”,而是类似于DJ,调试AI工具从而产出独特作品的“明星工程师”。但这样的模式最终还是离不开一个又一个有真实情感体验的人类。
而如果有一天,AI解析并学会了人类情感在音乐中的表达,我们可能就需要更加认真地讨论AI和人类的关系了。
采访最后的讨论给我留下了许多遐想,随着AI技术的不断发展,我们还将面临一次又一次的变化和转型。但就像游戏可以从掌机走向电脑再走向手机,不同行业最终都能找到和新技术一同发展的路径,相信音乐行业面对AI作曲时也一样。我们不如保持期待,一起看看它的后续发展吧!
好啦,这期魔方研究就聊到这里吧,也拜托大家多多点赞收藏支持一下方妹的工作哦~让我们下期节目再见吧。
评论区
共 条评论热门最新