Image

Image

最近,互联网上的音乐正在被一大群AI歌手重新洗牌——AI蕾哈娜凭借翻唱碧昂斯最新热门单曲《Cuff It》的视频在互联网上疯传,AI公鸭和AI盆栽哥合作的歌曲《Heart On My Sleeve》也在国外火出圈,而在国内,B站上的AI王心凌正在唱《套马杆》,AI孙燕姿正在唱《发如雪》……

片刻间,未经授权的AI配音深度伪造歌曲在TikTok、YouTube和Spotify等平台上产生了数十万次流媒体播放。在很大程度上,这并不是唱片公司在制作这种深度伪造的音乐。相反,这来自日常的音乐迷——他们正在使用AI和本土的训练数据集来编造他们梦想中的“荒谬歌曲”。

所谓深度伪造技术(deepfakes)一种利用AI程序和深度学习算法实现音频模拟和伪造的技术,投入深度学习的内容库越大,合成的视音频真实性越高,甚至可以达到以假乱真的程度。

今年上半年,音乐研究平台Water & Music发布了一份关于创意AI对音乐产业的法律、道德和商业影响的深度报告,为艺术家和音乐行业的专业人士提供了可访问的框架,并建议行业从业者做好准备,应对即将到来的“音乐AI应用的分水岭时刻”。

在这项研究中,Water & Music详细地从制作过程、法律界定到技术价值等多个维度讨论了音乐中AI深度伪造的几个核心问题。

问题一:AI“深度伪造”是新趋势吗?

事实上,这并不是一种新趋势,利用语音AI的音乐工具的出现时间甚至早于现代语音助手。2004年,雅马哈公司发布了第一款由AI加持的vocaloid产品,允许用户合成具有歌词和旋律输入的声音,而标志性的日本vocaloid虚拟歌手初音未来也在2007年就已发布。虽然vocaloid软件使用起来很繁琐,但它最著名的虚拟形象代表在YouTube上拥有数百万订阅者,在世界各地的现场音乐活动上也非常有票房号召力。

在过去的六个月里,生成式AI的加速发展预示着一个新的、连接更紧密的原始语音合成时代的到来。如今,包括Uberduck、Eleven Labs和Descript在内的几种现成工具,使艺术家和品牌仅用几分钟的训练数据就能生成高质量、令人信服的AI声音。

问题二:深度伪造歌曲如何制作?

市场上有几种不同的方法。但市场也存在一个很大的误解,即所有的深度伪造歌曲都是完全由AI生成的。在许多最引人注目的案例中,事实并非如此。

相反,人类创作者仍然会编写、录制和整理潜在的音乐元素,包括旋律、和声、节拍,有时还有基本的人声本身,然后叠加和调整合成的明星声音,以适应整体的制作。YouTube的创建者Roberto Nickson在他的AI侃爷演示中就采用了这种方法。

就AI翻唱而言,粉丝们会通过Stems音轨分离工具将人声与原始歌曲分离,再使用人声转换模型将人声转换成另一位明星的风格,然后将新的人声轨道与原始作品重新拼接在一起。Diff-SVC就是一种特别流行的用于此目的的语音传输模型。

但在其他情况下,比如现在已关闭的AI工具Drayk.it,它允许用户仅通过文本提示就可以生成一首Drake的歌,并且整个制作过程都由AI从头开始生成,其中开发人员将多个不同的模型用于歌词生成、语音合成和音乐合成,从而实现一键式用户体验。

使用现在的AI工具生成一个令人信服的深度伪造艺术家的声音只需要几分钟的声音样本,但它们仍然需要高质量的样本,生成的歌曲可能需要一些后期处理,才能听起来更优质且更专业,以及也许需要使用像iZotope和LANDR上的AI辅助混音和母带处理工具。

鉴于目前许多深度伪造所需的训练输入数量有限,这意味着,经验丰富的声乐家可能是最早拥有足够多的数据的群体,他们如果要构建自己的“AI克隆体”将会非常方便。

问题三:深度伪造歌曲带来的法律问题

要解开关于某首深度伪造歌曲的法律复杂性,可以围绕以下几个关键问题展开:

(a)训练数据是否获得许可?

过去几年,大多数著名的音乐AI模型,比如谷歌的MusicLM和OpenAI的Jukebox,都是建立在数以百万计的录音训练数据之上,其中大部分都受版权保护。如果开发者在家中煞费苦心地收集Ariana Grande的声音样本来训练他们的定制Ari语音模型,他们很可能在未经原始所有者许可的情况下就使用了部分受版权保护的录音。训练数据有时也会在原始所有者不知情的情况下跨平台传播。例如,苹果公司曾经在Spotify的有声读物数据上训练自己的有声读物AI语音旁白。

(b)艺术家是否会因被纳入训练数据中而得到补偿?

正如之前的研究中所述,AI模型训练数据的同意、归属和补偿不如音乐行业的传统抽样那么明确。对AI训练的艺术家是否进行补偿也没有既定的标准。一些平台直接从艺术家那里购买经过审查的样本,而另一些平台则要求原谅而不是许可。但目前也已经出现了类似Mubert和Infinite Album这样的音乐AI初创公司,它们可以向艺术家支付使用其训练数据从AI输出产生的收入版税。

(c)流媒体服务将如何处理AI生成的音乐?

这个问题的答案部分取决于流媒体服务和音乐发行商如何在他们的审核工作中标记AI生成的内容。事实证明,区分完全由AI生成的内容和仅由AI辅助生成的内容是具有挑战性的,因为单独的输出并不总是提供明确的指示。

无论如何,各大唱片公司都开始追查深度伪造歌曲,并公开反对AI的模仿用例。环球音乐集团在一份声明中表示:“出于对艺人的道德和商业责任,我们会努力防止未经授权使用他们的音乐的情况,并阻止平台摄取侵犯艺术家和其他创作者权利的内容。”

问题四:音频“深度伪造”应该全盘否定吗?

其实不一定。深度伪造是语音模型技术的一种使用,但并非所有的语音建模都是“深度伪造”,如果以合乎道德和共识的方式进行部署,语音AI模型可以成为艺术家品牌的有意义的延伸。

譬如,好莱坞已经利用AI语音来保护名人的遗产——卢卡斯影业与AI初创企业Respeecher合作重现了James Earl Jones 45年前标志性的反派声音,或者Val Kilmer在咽喉癌治疗后与AI语音初创公司Sonantic合作,为《壮志雄心:独行侠》(Top Gun: Maverick)配音。

在音乐行业,一些艺术家正在围绕声音模仿探索新的经济模式。例如,电子艺术家Holly Herndon与一家名为Never Before Heard Sounds的初创公司合作建立了她的定制Holly+声音模型,她将其授权给一个封闭的合作者网络,以换取以她的声音为特色的后续作品的收入分成。

当然,对于每一个正面的案例研究来说,其背后很可能还存在数十或数百个深度伪造歌曲的例子,这些歌曲中的大部分是未经同意的使用案例,以及最坏的情况是可能存在一些带有恶意的生成内容。艺术家和他们的团队可以通过尝试可用的AI工具,包括收集高质量的训练数据,以便在未来微调他们自己的AI模型,并在其他地方开发一个强大的、与技术无关的品牌标识,从而更好地抵御即将到来的风暴。

随着AI的兴起,许多艺术家也纷纷发表自己对于产业未来的看法。最近,黑眼豆豆的成员will.i.am在一个播客中表示他认为“第四产业”即将到来而比AI生成歌曲更紧迫的问题在于,每个人都有相关的所有权需要受到保护。

在will.i.am看来,这个“第四产业”不仅仅针对音乐家和艺术家,也可能会影响许多普通人和数字相关的权益。因为每个人都有自己的肖像和声音,如果不加以保护,每个人的面部数据和声纹数据的任何权利或所有权都可能受到损害

“我能够拥有一首歌的所有权,但我没有我的面部数据和声纹数据的权利。新的法律和新的产业即将诞生,这些都是我们需要努力应对的新挑战,技术发展是如此惊人,而令人惊讶的是我们目前尚未形成法规和实施治理。”will.i.am说。

Image