今日精选:我们让“AI孙燕姿”唱了首《好汉歌》

浙江日报   2023-05-19 23:03:56

潮新闻 记者 谢丹颖


(资料图片)

“2003年大火的歌手:孙燕姿。2023年爆火的歌手:AI孙燕姿。”最近,在B站一个热门AI孙燕姿翻唱视频下,有网友这样评论道。近几天来,AI歌手翻唱歌曲及视频在多个平台火爆,生成式人工智能(AIGC)再度出圈。

如何炼制“AI孙燕姿”?怎么用AI唱歌?潮新闻记者亲身体验了一把。

01:01

△让“AI孙燕姿”唱了首《好汉歌》

如何炼制?

好了,听完是不是非常跃跃欲试?记者带你一起来试一下。该翻唱视频采用了开源项目So-vits-svc,简称Sovits,是一款由国内音乐合成爱好者Rcell开源的免费AI语音转换项目。

so-vits-svc模型资源网页https://github.com/svc-develop-team/so-vits-svc

据悉,AI音频技术,主流有两种——TTS和SVC。

TTS(Text-to-Speech),即文本生成音频。我们平时使用的智能配音就是在应用该技术,相信大家都已熟悉,这里不再赘述。

SVC(Singing Voice Conversion),本次开源项目Sovits即属于这一类。SVC技术类似变声器。但与需要人实时说话再转变声音的变声器不同,该技术通过AI对特定人的声音深度学习,训练出一个声学模型,从而模仿特定人的声线,去说话、唱歌。

基于Sovits炼制“AI孙燕姿”的步骤并不复杂,主要分三步:采集孙燕姿的歌曲作为训练数据,通过Sovits提取孙燕姿的音色特征,翻唱其他歌曲。

一步步来:首先,训练数据得是“干声”,即歌曲去掉乐器、伴奏、混响、和声的纯人声部分。这里,借助了UVR5的力量进行“提炼”。

UVR5截图

且囿于没有高性能的显卡,为了在训练时不收到各种报错,需把“提炼”好的训练数据剪裁成10秒左右的分段文件。同时,训练数据需尽量覆盖孙燕姿的各个音调,以保证“AI孙燕姿”在翻唱时,低音、高音部分均游刃有余。

接着便是下载官方源码,一步步按照资源网页配置开发环境,用Sovits提取孙燕姿的音色特征。时长据不完全统计,大约是一整晚。

so-vits-svc模型资源网页有具体的操作流程

最后,上传处理好的《好汉歌》、《花海》“干声”文件,点击转换,经过漫长的时间(《好汉歌》记者用了数个小时),最终实现“AI孙燕姿”的翻唱。

△请欣赏AI孙燕姿《花海》

效果咋样?

起初,潮新闻记者曾尝试用国外训练好的AI声音一键生成《生日快乐》的翻唱,效果差强人意,就是会存在“过于数字感”“跳跃感”“不流畅”等小毛病。

00:21

△通过该网站生成的AI版《生日快乐》

但对于“AI孙燕姿”,孙燕姿本人极具标识的咬字和独特尾声,很好弥补了普通“翻唱”AI的缺陷。尚不论风格相似的《花海》,难辨是真人还是AI翻唱。即便是反差极大的《好汉歌》,也被唱出了“孙燕姿”式味道。这大概也是“AI孙燕姿”能从一众AI歌手中脱颖而出、爆火的原因之一。

AI歌手的“仿真”程度能够以假乱真,骗过许多专业人士和真爱粉,欣喜于技术革新的同时,人们不禁担忧,在人工智能技术愈发成熟的未来,真正的歌手是否还有舞台?

但在人工智能产业高速发展、创新业态极速扩张的今天,人机深度互动或将成为社会生产生活的常态,与其在“是否被取代”的惶恐中将新技术视作洪水猛兽,倒不如好好思考“AI时代,我们到底可以做些什么”。

此前网络上大火的由Midjourney生成的AI绘画

特别提醒

从个人娱乐到全网关注,针对AI翻唱的版权问题,也引发热议。

或是因为使用Sovits模型进行AI歌曲创作的人数过多,构成侵权压力,该模型从5月9日起已停止更新,创作者声明“不知道也无法知道用户使用该项目的目的是什么,所有基于该项目训练的AI模型和合成音频与项目贡献者无关,由此产生的一切问题由用户自行承担”。目前,网上通行使用的还是原来的版本。

so-vits-svc模型资源网页上的公示

因AI歌手涉及侵权问题,不少“AI孙燕姿”翻唱视频创作者及音乐合集创作者也纷纷标注免责声明。

B站UP主的免责申明

当AI入侵音乐行业后,生成式音乐的泛滥让很多人感到忧心。根据国外一位音乐经纪人的观察,过去几个月,音乐服务平台Spotify上的歌曲数量一直在以平均每天10万首的速度激增。

眼下,环球影业已致信各大流媒体平台,要求打击使用生成式AI的行为,停止使用其版权所有的歌曲进行训练。Spotify平台也已下架人工智能音乐初创公司Boomy的数万首歌曲,下架的主要原因是怀疑“水军机器人冒充人类听众来夸大某些歌曲的听众数量”,形成机器写歌、机器听歌、创造收益,一条龙服务。

对此,我国也出台了相关政策法规,近日发布的《生成式人工智能服务管理办法》提出,“利用生成式人工智能产品提供聊天和文本、图像、声音生成等服务的组织和个人,要承担该产品生成内容生产者的责任”。

这些都是可以且需要进一步关注讨论的话题。我们也在此声明:本文中的视频、音频只为新闻报道、探讨使用,不得作为商业用途。

“转载请注明出处”