三只羊“财色灌音”是假的, 但背后时期是的确恐怖

发布日期:2024-10-01 17:35    点击次数:57

三只羊“财色灌音”是假的, 但背后时期是的确恐怖

要说这段期间哪家公司风头正盛,那非三只羊莫属,隔三差五就要上一趟新闻,照旧法制栏所在那种。

这不前几天,月饼门的事件还没往日,又来了个灌音门。

事情是这样的, 9 月 20 号的时候网上倏得流传出了一段,疑似三只羊高管卢某的灌音。

灌音里触及到了多位三只羊的女主播,具体本体咱在这就未几作念接洽了,但照实很炸裂。。。

灌音爆出来后,就在网上速即引起了一波热度。有东谈主说这段灌音纯纯是男的喝多了吹的给力,但接洽的风向很快又形成了这玩意儿,到底是不是 AI 生成的,以致还钓出来不少所谓的 AI 众人,入手一顿分析。

适度没两天,警方的通报就出来了:都散散吧,是 AI 干的。

而此次事件的另外一位主角, Reecho 睿声公司也终于浮出了水面,锤了我方的用户一把。

有好奇羡慕好奇羡慕的是,即使是官方都露面了,但照旧有网友合计卢某是 “ 酒后吐真言 ” ,通报也不外是把锅,甩给了没法儿自证的 AI 。

但非论咋说,东谈主官方探望通报都出来了,你信也好不信也罢,这事儿就这样定调了。

不外以差评君对 AI 语音的了解,像三只羊灌音门这种情况,的确是有可能的。主若是现阶段的 AI 语音时期,照实如故挺老到的了。

因为我们只需要上传一两句话,剩下的告成甩给 AI 就行,分分钟就能克隆一个东谈主的音色。

这样说吧,现时 AI 语音合成里相比常见、开源口头也相比多的,就数TTS 、 SVC&RVC 两大类时期。

所谓 TTS ,浅显来说便是Text To Speech ,把文本滚动谚语音。像许多 AI 数字东谈主、有声书、视频配音,大伙儿刷抖音平素听到的 “ 持重看,这个男东谈主叫小帅 ” ,还有剪映素材库里那些 TVB 女声、广西表哥。。。基本都是 TTS 干的。

像此次三只羊灌音门牵涉到的 Reecho 睿声,亦然一个 TTS 模子的生成网站。我们其实也在他们网站上,克隆过差评君的声优蛋蛋的声息,大伙儿不错听听看到底像不像。

上来先用《 意大利面拌 42 号混凝土 》的 “ 名篇节选 ” 整一波,你别说,你还真别说。音色的复刻经由能有个 80%-90% ,而况话语的口吻也贼像,不仔细听还以为在作念什么正经科普。

我们原来还念念借着 AI 差评君给大伙儿送一波福利,但没念念到这个 AI 小小翻车了一下, 10 台 iPhone 16 说成了 “ 一零台 iPhone sixteen” 。。。穿帮的实在是太彰着了,这福利念念送都送不出去呀,可惜可惜。

借 AI 的口,你以致还能听到差评君管宏大差友们借债。就连国庆节自觉加班 7 天,还不要加班费这种话,从这位 “AI 差评君 ” 的嘴里说出来,你也能听出心甘宁愿的滋味。

除此以外,东谈主家阿谁声息阛阓里还不错我方选检修好的声息 AI ,不仅有我们的好一又友影视飓风 Tim ,以致还有主播电棍,坤哥和派蒙,就连五星挑剔家麦克阿瑟也能拿来用。

有一说一,这种经由的克隆如故荒谬传神了,是以现时回头看三只羊灌音门,好像 AI 参与的实在度又高了少量。而有些一又友可能还合计,那这个 AI 奈何就能把那种醉态、朦胧不清的话都模拟出来呢?

这就得说到 SVC&RVC 了。这内部 SVC( Singing Voice Conversion )是用来唱歌的,而 RVC (

Retrieval-based-Voice-Conversion )的场景多用在直播,这俩都是及时把语音疗养成 AI 检修的音色,俗称变声器。

由于输入的是音频,是以它就能把一个东谈主的声息滚动的更信得过,以致连口吻、声调这些东西都不错滚动得很当然。如果是歌声疗养,以致还能师法音色和唱腔。

像 GitHub 上有个叫 So-Vits-SVC 的开源口头,就一手打造了AI 孙燕姿、唱《 泪桥 》比原唱伍佰还美妙的陶喆。

近似的开源口头还有许多,而况都很好上手。举个例子, b 站的大佬 “ 花儿不哭 ” 本年就上线了一个开源模子 GPT-SoVITs ,下载好告成拿语音喂就行了。

你要懒的我方检修,那还不错在魔搭社区用 “xz 乔希 ” 的口头告成开玩;以致剪映和必剪这些裁剪软件里都如故用上了自家的 AI 语音,除了那些营销号语音你也不错生成我方的。

乃至于疏忽找个器具辘集网站一搜,多得是不错告成上手用的居品。

我们之前用 “ 花儿不哭 ” 开源的 RVC 及时变声算法,也作念过一个差评君变声器。

以致还特意作念了一个相称差评的驱动界面。

至于成果大伙儿自个儿品吧,我打保票,这皆备不是隔邻差评君的声优蛋蛋录的。

而况其时我们还特意给变声器作念了个硬件外挂,现时还搁办公室里呢。

东谈主在这边对着麦话语,音响那儿及时就能把声息形成蛋蛋的。

看起来挺给力是吧,不外这玩意也不是倏得就这样先进了。

主要语音生成这一块照实低调,你就说这几年这些 AI 的宣传,一个个都好像是奔着炸裂全天地去的。三天两端画大饼,谁还回想语音生成是奈何个情况。

眷注的东谈主少,再加上时期积聚也多,那可未便是闷声发大财嘛。只不外现时倏得出圈了,人人才嗅觉到歌颂。

说到底照旧 AI 期间这些东西的门槛都镌汰了,你念念 cos 哪个东谈主的声线都荒谬便捷。

不外真话,时期跳跃是一趟事儿,但避难趋易地说,用这玩意儿来违纪人法的案例,并不在少数。

也不是咱制造啥张惶,新华网旧年九月就报谈过了干系的拐骗妙技,你念念念念家里年级大的老东谈主,若是接到跟你话语声息一模同样的拐骗电话,说你遭遇了危境,会不会把棺材本都给骗子骗走?

不啻国内,这事在海外照样有,就连好意思国驰名密码管束器具公司 LastPass 的 CEO ,都被伪造声息拿去拐骗了。

尽管现时如故有不少机构在琢磨奈何处理安全问题,探索奈何识别伪造语音等把柄,比如有接洽标明,现时不错通过算法声纹认证和语音取证等见识,对 AI 合谚语音进行辩别。

但这些更多照旧在找 AI 语音上的 bug 来松弛的,就好像数手指和穿模来松弛 AI 图片同样,惟有模子一升级,这些见识可能就也没辙了。

不外差评君合计,要从根底上管束问题,就还得从生成式模子本人启程。

给 AI 生成的图片、音视频也打上近似水印的标记,同期缔造和软件也简略检索到这些标签,教唆人人这些本体并非信得过。

像是谷歌就如故入手接洽在 AI 生成的音频声谱上,添加能被视觉化的特定标记,这样既不会影响用户听感也便捷识别。

总的来说,在生成式 AI 的影响下,以后目击不一定为实,耳听也可能为虚。归根结底时期在发展的同期,注重时期销耗的对策也必须作念好。

别光念念着说 “ 时期无罪 ” ,上个这样喊的东谈主如故蹲了好多年,现时都出来了。

不外对三只羊来说,诚然始作俑者如故被握,但这东谈主靠 AI 推在他们身上这把劲,忖度影响还会不竭挺久,至于后续奈何发展,我们照旧再等等看吧。